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(57) Abstract: The present 

invention relates to searching 
content, particularly for at least 
one extract common to a first data 
file and a second data file. The 
method comprises a preliminary 
step of preparing at least the first 
file by (a) dividing the first file into 
a series of data packets having a 
predetermined size, and identifying 
packet addresses in said file, (b) 
combining each packet address with 
a digital signature that defines one 
of three fuzzy logic states, namely 
true , false and indeterminate , and 
is the result of a combinatorial 
computation on data from said file; 
whereafter said method comprises 
performing an actual search for a 
common extract by (c) comparing 
the fuzzy logic states combined 
with each packet address of the 
first file with fuzzy logic states 
determined on the basis of data from 
the second file, and (d) removing 
from said common extract search 
the respective address pairs from the 
first and second files that have the 
respective logic states true and false 



or false and true , and retaining the other address pairs that identify data packets that may comprise said common extract. 
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(57) Abrege : L'invention concerne la recherche de contenu, notamment une recherche d'au moins un extrait commun entre un 
premier fichier et un second fichier de donnees. Le precede de l'invention comporte une preparation prealable du premier fichier au 
moins, comprenant les etapes suivantes : a) segmenter le premier fichier en une succession de paquets de donnees, de taille choisie, 
et identifier des adresses de paquets dans ledit fichier, b) associer a l'adresse de chaque paquet une signature numerique definissant un 
etat en logique floue parmi au moins trois etats : "vrai", "faux" et "indetermine", ladite signature resultant d'un calcul combinatoire 
sur des donnees issues dudit fichier, et le precede se poursuit par une recherche d'extrait commun, proprement dite, comprenant les 
etapes suivantes, c) comparer les etats de logique floue associes a chaque adresse de paquet du premier fichier, avec des etats de 
logique floue determines a partir de donnees issues du second fichier, d) eliminer de ladite recherche d'extrait commun des couples 
d'adresses respectives des premier et second fichiers dont les etats logiques respectifs sont "vrai" et "faux" ou "faux" et "vrai", et 
conserver les autres couples d'adresses identifiant des paquets de donnees susceptibles de comporter ledit extrait commun. 
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Procede de recherche de contenu. notamment d'extraits communs entre deux fichiers 

informatiques 

La presente invention concerne la recherche de contenu informatique, en particulier d'extraits 
5 communs entre deux fichiers. 

Plus particulierement, il s'agit de rechercher au moins un extrait commun entre un premier 
fichier et un second fichier, sous forme de donnees binaires. 

10 Les techniques actuellement connues proposent une recherche a l'identique, generalement 
donnee par donnee. La lenteur de la recherche, pour des applications a des fichiers de grandes 
tailles, devient redhibitoire. 

La presente invention vient ameliorer la situation. 

15 

Elle propose a cet effet un procede de recherche de contenu qui comporte une preparation 

prealable du premier fichier precite au moins, comprenant les etapes suivantes : 

a) segmenter le premier fichier en une succession de paquets de donnees, de taille choisie, et 

identifier des adresses de paquets dans ledit fichier, 
20 b) associer a l'adresse de chaque paquet une signature numerique defmissant un etat en logique 

floue parmi au moins trois etats : "vrai", "faux" et "indetermine", ladite signature resultant 

d'un calcul combinatoire sur des donnees issues dudit fichier, 
le procede se poursuivant ensuite par une recherche dextrait commun, proprement dite, 
comprenant les etapes suivantes : 
25 c) comparer les etats de logique floue associes a chaque adresse de paquet du premier fichier, 

avec des etats de logique floue determines a partir de donnees issues du second fichier, 
d) eliminer de ladite recherche d'extrait commun des couples d'adresses respectives des 

premier et second fichiers dont les etats logiques respectifs sont "vrai" et "faux" ou "faux" 

et "vrai", et conserver les autres couples d^dresses identifiant des paquets de donnees 
30 susceptibles de comporter ledit extrait commun. 

A l'etape b), on affecte preferentiellement a un paquet de donnees Tetat : 
"vrai" si toutes les donnees du paquet verifient une premiere condition, 
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"faux" si toutes les donnees du paquet verifient ime seconde condition, contraire a la 
premiere condition, 

et "indetermine" si certaines donnees du paquet verifient la premiere condition, tandis que 
d ! autres donnees du paquet verifient la seconde condition. 

Dans un mode de realisation prefere, on applique aux donnees d'un fichier un traitement 
prealable a Tetape b) et comportant les etapes suivantes : 

al) on considere les donnees du fichier en tant que suite d'echantillons obtenus a une 

frequence d'echantillonnage predetermined, et de valeurs codees selon un code de 

representation binaire, et 
a2) on applique un filtre numerique sur lesdits echantillons, adapte pour minimiser une 

probability d ! obtention de l'6tat "indetermine" pour les signatures numeriques associees 

aux paquets d'echantillons. 

Avantageusement, Tapplication dudit filtre numerique revient a : 

appliquer une transformee spectrale aux donnees echantillonnees, 

appliquer un filtre passe-bas a Iadite transformee spectrale, 

et appliquer une transformee spectrale inverse apres ledit filtre passe-bas. 

Ce filtre passe-bas opere preferentiellement sur une bande de frequences comprenant 
sensiblement Tintervalle : 

[-Fe/2(k-l), +Fe/2(k-l)], 
ou Fe est ladite frequence d'echantillonnage, 
et k est le nombre d ! echantillons que comporte un paquet 

Avantageusement, le filtre numerique comporte un nombre predetermine de coefficients de 
meme valeur, et la reponse frequentielle du filtre passe-bas associe s ! exprime, en fonction de la 
frequence f, par une expression du type : 

sin(PI.f.T)/(PI.f.T), 
ou sin() est la fonction sinus, et avec : 
- PI = 3,1416, et 

T=(K-1)/Fe oil K est ledit nombre predetermine de coefficients et Fe ladite frequence 
d'echantillonnage. 
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Preferentiellement, le filtre numerique est un filtre a valeur moyenne d'un nombre 
predetermine de coefficients, et en ce que la difference entre deux echantillons filtres 
successifs est proportionnelle a la difference entre deux echantillons non filtres, 
respectivement d f un premier rang et d'un second rang, espac<§s dudit nombre predetermine de 
coefficients, et en ce que le calcul desdits echantillons filtres est effectue en exploitant cette 
relation pour reduire le nombre d' operations de calcul a effectuer. 

Le nombre predetermine de coefficients du filtre est preferentiellement superieur ou egal a 
2k- 1, ou k est le nombre d'echantillons que comporte un paquet, valeur qui pourra etre 
designee par la suite par le teime rapport d f index. 

Preferentiellement : 

- l'etat "vrai" est affecte a Tadresse d'un paquet si, pour ce paquet, tous les echantillons 
filtres ont une valeur superieure a une valeur de reference choisie, 

" l' 6tat "faux" est affecte a l'adresse d'un paquet si, pour ce paquet, tous les echantillons 
filtres ont une valeur inferieure a une valeur de reference choisie, et 

- I f 6tat "indetermine" est affecte a l'adresse d'un paquet si, pour ce paquet, les echantillons 
filtres ont, pour certains, une valeur inferieure a ladite valeur de reference, et, pour d'autres 
echantillons filtres, une valeur superieure a ladite valeur de reference. 

Avantageusement, pour tout echantillon filtre r n , d'ordre donne n, ladite valeur de reference est 
calculee en moyennant les valexirs des echantillons non filtres f k , sur un nombre choisi 
d'echantillons consecutifs non filtres autour d'un echantillon non filtre f n , du meme ordre 
donne n. 

Les valeurs des echantillons filtres sont preferentiellement ramenees, pour comparaison, a une 
valeur seuil nulle, et les echantillons filtres r' n s'expriment alors par une somme du type : 

r \ = K ref 2 fn+k ~ K ^L+k* 

oix: 

- fn+k sont des echantillons non filtres obtenus a Tetape al), 

- K est le nombre de coefficients du filtre numerique, preferentiellement choisi pair, et 
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_ K ref est ledit nombre d'echantillons non filtres autour d'un echantillon non filtre f tt9 
preferentiellement choisi pair et superieur audit nombre de coefficients K. 

Dans une realisation avantageuse, on applique la somme precitee aux echantillons non filtres f n 
une pluralite de fois, selon un traitement effectue en parallele, en faisant varier respectivement 
le nombre de coefficients K. Cette mesure permet alors de determiner une pluralite de 
signatures numeriques, sensiblement independantes statistiquement. 

Dans une realisation particuliere, les etats flous associes au premier fichier au moins sont 
codes chacun sur au moins deux bits. 

Dans cette realisation, les etats flous determines pour un nombre de coefficients K le plus 
faible sont codes sur des bits de poids le plus faible et les etats flous determines pour un 
nombre de coefficients K plus grand sont codes sur des bits suivants, jusqu'a un nombre total 
choisi de bits. On comprendra que ce nombre choisi peut etre adapte avantageusement a la 
taille des donnees binaires utilisee par les microprocesseurs d'entites informatiques pour des 
operations logiques de comparaison. 

Preferentiellement, chaque echantillon filtre r n s'exprime comme une somme du type : 

h 

- f(n+i) sont des echantillons non filtres, 

- filtrei sont des coefficients d ! un filtre numerique, integrant, le cas echeant, une valeur seuil 
ramenee a zero, 

et l ! on choisit un nombre k d'echantillons non filtres que comporte un paquet, au minimum egal 
a 2 et inferieur ou egal a une expression du type : 

(TEF-Ii-I 2 +l)/2 5 ou TEF est une taille minimale souhaitee des extraits communs recherches. 
Cette mesure permet avantageusement d'assurer un recouvrement d'un paquet de k donnees 
utilise pour le calcul d'une seule donnee de signature numerique. 
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Dans cette realisation, 

- pour une valeur donnee TEF de la taille minimale souhaitee d f extraits communs 
recherches, on determine une plage de valeurs utilisables pour ledit nombre k 
d'echantillons non filtres que comporte un paquet, 

- et, pour chaque valeur utilisable du nombre k, on determine une taille optimale TES d'une 
succession de donnees de signatures numeriques pour laquelle la detection d'un extrait 
commun de taille TEF est garantie. 

Ladite taille optimale TES est alors inferieure ou egale a une expression du type : 
E[(TEF-Ii-I 2 +l)/k]-l, ou E(X) designe la partie entiere de X. 

Pour une application ou les deux fichiers a comparer comportent des donnees representatives 
de caracteres alphanumeriques, notamment du texte et/ou un code informatique ou genetique, 
le procede comporte avantageusement : 

- un premier groupe d'etapes comportant la formation des signatures numeriques et leur 
comparaison, pour une recherche grossiere, et 

un second groupe d'etapes, notamment pour une recherche fine, comportant une 
comparaison a l'identique dans les plages d'adresses verifiant la comparaison grossiere, 
On considere alors les donnees d'un fichier en tant que suite d'echantillons, avec un nombre 
choisi k d'echantillons par paquet, la valeur de ce nombre choisi k etant optimisee initialement 
en recherchant un minimum d'operations de comparaison a effectuer. 

Pour Toptimisation du nombre choisi k d f echantillons par paquet, on tient compte 

avantageusement d'un nombre total : 

d'operations de comparaison de signatures numeriques a effectuer, et 
d'operations de comparaison de donnees a Tidentique a effectuer ensuite, 

ce nombre total d'operations etant minimum pour un ensemble fini de nombres k. 

Le procede prevoit avantageusement une etape au cours de laquelle on obtient une information 
relative a une taille minimale souhaitee d'extraits communs recherches, utilisee pour optimiser 
ledit nombre choisi k d'echantillons par paquet. Ce nombre optimal k d'echantillons par paquet 
varie alors sensiblement comme ladite taille minimale, de sorte que plus la taille minimale 
souhaitee d'extraits communs recherches est grande, plus le nombre total d'operations de 
comparaison diminue, et done plus la duree de la recherche d'extrait commun est courte. 
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Pour d'autres applications telles que la recherche de contenu de fichiers audio, video, ou 
autres, la recherche d'extraits communs consiste preferentiellement en un unique groupe 
d'etapes comportant la formation des signatures numeriques et leur comparaison. Le nombre de 
5 donnees par paquet est alors optimise en se fixant initialement un indice de confiance 
caracterisant un seuil acceptable de probability de fausse detection d'extraits communs. 

Dans un mode de realisation general prefere, pour le premier fichier : 

on applique l'echantillonnage a une frequence d'echantillonnage choisie, 
10 le filtrage numerique correspondant a un filtrage passe-bas dans Tespace des frequences, et 

la combinaison des echantillons filtres pour obtenir des signatures numeriques a l'etat 
"vrai", "faux" ou "indetermine", associees aux adresses respectives du premier fichier, 

tandis que, pour le second fichier : 
on applique Fechantillonnage a une frequence d'echantillonnage choisie, 
15 le filtrage numerique correspondant a un filtrage passe-bas dans Tespace des frequences, et 

on determine l'etat logique associe a chaque paquet d'echantillons filtres a partir de l'etat 
logique associe a un seul echantillon filtre choisi dans chaque paquet (de maniere 
preferentielle comme etant le premier echantillon de chaque paquet), 
de maniere a obtenir des signatures numeriques ne comportant que des etat logiques "vrai" ou 
20 "faux" et ainsi a ameliorer la selectivity de la comparaison des signatures numeriques. 

Dans cette realisation, 

si l'etat logique associe a une adresse du premier fichier est "vrai" ou "indetermine", tandis 
que l'etat logique associe a une adresse du second fichier est "vrai", le couple desdites 
25 adresses est retenu pour la recherche d'extrait commun, 

si l'etat logique associe a une adresse du premier fichier est "faux" ou "indetermine", tandis 
que l'etat logique associe a une adresse du second fichier est "faux", le couple desdites 
adresses est retenu pour la recherche d'extrait commun, 
tandis que les autres couples d'adresses sont exclus de la recherche. 



Bien entendu, le procede au sens de la presente invention est mis en oeuvre par des moyens 
informatiques tels qu'un produit programme d'ordinateur, decrit plus loin. A ce titre, 
l'invention vise aussi un tel produit programme d'ordinateur, ainsi qu'un dispositif, tel qu'une 
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entite informatique, comportant un tel programme dans Tune de ses memoires. L'invention 
vise aussi un systeme d'entites informatiques de ce type, communicantes, comme on le verra 
plus loin. 

Ce programme d'ordinateur est capable notamment de generer une signature numerique d'uh 
fichier de donnees binaires, cette signature numerique etant ensuite comparee a une autre 
signature pour la recherche d'extrait commun. On comprendra que la signature numerique 
d'un fichier quelconque de donnees, elaboree par le procede au sens de l'invention, est un 
moyen essentiel pour mener Petape de comparaison. A ce titre, la presente invention vise aussi 
la structure de donnees de cette signature numerique. 

D f autres caracteristiques et avantages de l'invention apparaitront a l'examen de la description 

detaillee ci-apres, et des dessins annexes sur lesquels : 

la figure 1 resume sensiblement les principales etapes de recherche fine, 
la figure 2A represente schematiquement l'agencement d'un tableau bidimensionnel pour 
la comparaison de deux fichiers de donnees, en fonction des adresses des donnees de ces 
deux fichiers, 

la figure 2B represente schematiquement un tableau bidimensionnel pour la comparaison a 
l'identique de deux fichiers texte «Des moutons» et «Un mouton», 

la figure 3 represente la correspondance entre les adresses de donnees et les adresses de 
blocs de donnees obtenus apres elaboration d'une signature numerique, ici pour un rapport 
d' index qui vaut 4, 

la figure 4A represente un tableau bidimensionnel pour la comparaison des signatures 
numeriques de deux fichiers texte «Des moutons» et «Un mouton», avec un rapport 
d'index de 2, 

la figure 4B represente un tableau bidimensionnel pour la comparaison a l'identique, fine 
et qui suit en principe Petape de recherche grossiere de la figure 4A, des deux fichiers 
texte «Des moutons» et «Un mduton», 

les figures 5A et 5B represented respectivement les tables de verite des fonctions « OU » 
et « ET » en logique binaire, 

la figure 5C represente un tableau de codage des etats flous sur deux bits BO et Bl, 
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les figures 5D et 5E represented respectivement les tables de verite des fonctions « OU » 
et « ET » en logique floue (par application de la loi de codage d'etats flous de la figure 
5C), 

les figures 6A et 6B represented respectivement les valeurs des etats en logique binaire 
associees aux donnees d'un fichier en fonction des adresses de ces donnees dans le fichier 
et les valeurs des etats en logique floue associees globalement a ces donnees en fonction 
des memes adresses (la fonction « OU » en logique floue ayant ete appliquee ici dans 
chaque bloc de donnees entre les etats logiques associes a chaque donnee d'un bloc), 
les figures 7 A, 7B et 7C represented des tableaux de determination d'etats binaires et flous 
a partir d ! exemple de fichiers texte. Pour ces exemples, les etats binaires sont determines a 
partir de la loi suivante : 

- 0 si la valeur entiere du code ASCII du caractere est strictement inferieure a 1 1 1, 

- 1 la valeur entiere du code ASCII du caractere est superieure ou egale a 1 1 1 ; 

la figure 7A est un tableau representant les differents etats flous associes a un fichier texte 
«La tortue» pour differentes valeurs du rapport d'index, 

la figure 7B represente des tableaux donnant respectivement les signatures numeriques 
associees aux fichiers respectifs «Le lievre» et la «La tortue», pour un rapport d'index 
de 2, 

la figure 7C represente un tableau comparant les signatures numeriques de la figure 7B 
pour la recherche d'extraits communs, 

la figure 8A represente une fonction cosinusoi'de a differentes phases en fonction d'une 
variable t/TouT est la periode de la fonction, 

la figure 8B represente la determination de l'etat de logique floue associe ponctuellement a 
une valeur de la variable t/T par application pour Tensemble des valeurs appartenant au 
segment [t/T,t/T+p] d f une combinaison logique entre les etats binaires obtenus a partir du 
signe de la fonction cosinusoi'de, 

la figure 8C represente les variations des etats de logique floue qui sont determines pour 
chaque valeur de la variable t/T par application pour Tensemble des valeurs appartenant au 
segment [t/T 5 t/T+p] d f une combinaison logique entre les etats binaires obtenus a partir du 
signe de la fonction cosinusoi'de, 

les figures 9 A a 9C represented respectivement les probabilites de tirage de l'etat flou 
« 1 », de l'etat flou « 0 » et de l'etat flou « ? », en fonction de la frequence f associee a une 
cosinusoi'de et en fonction de la taille p des segments, 
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la figure 10 represente les variations de la fonction f(t/Te) qui est obtenue par interpolation 
des valeurs prises par les echantillons f n du fichier texte «Le lievre» (la courbe en traits 
pointilles represente la contribution de Techantillon a la construction de la courbe 
f(t/Te)), 

la figure 1 1 represente les probabilites de tirage de l'etat flou « 1 » (ou encore de l'etat flou 
« 0 »), en fonction de la frequence f, avec un rapport d'index de 3, 

les figures 12A et 12B represented les probabilites de tirage de l'etat flou « 1 » (ou encore 
de l'etat flou « 0 »), en fonction de la frequence f, avec des rapports d'index respectifs de 
2 et de n (n>2), 

la figure 13 represente schematiquement les differentes etapes d'echantillonnage et de 
filtrage mises en oeuvre pour obtenir une signature numerique s^, 

la figure 14 represente les allures, en valeur absolue, de fonctions de filtrage Filtre(K,f) = 
2moy(K,f) (integrant la prise en compte d'une valeur moyenne de K echantillons autour 
d'un echantillon central), pour quelques valeurs de K, en fonction de f/Fe, 
la figure 15 represente les reponses frequentielles des filtres numeriques par defaut ajustes 
pour un rapport d'index k = 5, avec plusieurs valeurs du parametre interv decrit dans la 
description ci-apres, 

la figure 16A represente les adresses d' echantillons f n de donnees auxquelles a ete applique 
un echantillonnage, les adresses d'echantillons r n auxquels a ete applique un filtrage 
numerique et enfin les adresses de blocs de la signature numerique obtenue par 
combinaison (« OU » en logique floue des echantillons r n filtres), 

la figure 16B represente les conditions de recouvrement des blocs de donnees associes au 
calcul des donnees de signatures numeriques par les donnees d ? un extrait EXT a rechercher 
dans un fichier de donnees, 

la figure 17 represente le nombre de comparaisons a effectuer en fonction du rapport 
d'index k, pour une recherche grossiere (Total 1), pour une recherche fine ensuite (TotaI2), 
et pour l'ensemble des deux recherches (Total3), et, dans Texemple d ! une recherche 
d'extraits conimuns de taille minimale de 1000 caracteres entre deux fichiers de taille de 
100 Koctets, 

la figure 18 represente un systeme d'entites informatiques communicantes pour la mise en 
oeuvre d'une application avantageuse de 1'invention, a la mise a jour de fichiers 
informatiques a distance, 



WO 2005/101292 



PCT/FR2005/000673 



10 

la figure 19A represente une copie d'ecran d'une boite de dialogue dans le cadre d'une 
interface homme machine d'un programme informatique au sens de 1'invention, pour une 
recherche d'extraits communs entre deux fichiers textes, 

la figure 19B represente une copie d'ecran indiquant 1'evolution de la recherche, 
5 la figure 19C represente une copie d'ecran pour une recherche d'extraits communs entre 

deux fichiers audio, 

la figure 19D represente une copie d'ecran pour la creation de fichier de signature 
numerique elabore a partir d'un traitement en temps reel de signaux audio. 



10 Le procede au sens de 1' invention consiste a comparer entre eux des fichiers informatiques afm 
d'y rechercher tous les extraits communs possibles. L'examen porte directement sur la 
representation binaire des donnees qui constituent les fichiers et, avantageusement, ne 
necessite done pas une connaissance prealable du format des fichiers. D'ailleurs, les fichiers a 
comparer peuvent etre de nature quelconque, comme par exemple des fichiers texte, des 

15 fichiers multimedia comportant des sons ou des images, des fichiers de donnees, ou autres. 

Chaque fichier est represente sous la forme d'un tableau a une dimension dans lequel les 
donnees binaires sont rangees avec le raeme ordre que celui utilise pour un stockage sur 
disque. Les donnees binaires sont des octets (mots de 8 bits). Le tableau est done de meme 
taille que celle du fichier, en octets. Chaque case du tableau est reperee par une adresse. Selon 

20 les conventions utilisees en programmation, 1' adresse 0 pointe sur la premiere case du tableau, 
r adresse 1 sur la case suivante, et ainsi de suite. 

On entend par « extrait », notamment dans la formule « extrait common », ce qui suit. II s'agit 
d'une sequence de donnees consecutives qui est obtenue par recopie des donnees binaires d'un 
fichier en partant d'une adresse de debut, determines Cette sequence est elle meme 
25 representee sous la forme d'un tableau de donnees binaires auquel on associe une adresse de 
debut qui permet de reperer 1 'extrait dans le fichier d'origine. On indique que les donnees 
binaires sont des octets (mots de 8 bits). Chaque donnee est representee par le nombre entier 
(compris entre 0 et 255) qui est obtenu par addition en base 2 des bits de l'octet : 

B 0 + 2 1 Bi + ...+2 7 B 7 

30 Le tableau a done bien la meme taille que celle de l'extrait (en octets). Cette taille d'extrait 
peut etre comprise entre 1 et celle du fichier. 

Dans 1' exemple d'un document stocke dans un fichier en format texte, un extrait pourra etre 
par exemple un mot, une phrase ou une page de texte. 
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Pour le procede au sens de l'invention, on entend par « extrait cornmun a deuxfichiers » ce qui 
suit. II s'agit d'une sequence de donnees consecutives dont le contenu est fixe et qui peut etre 
obtenue soit par recopie des donnees binaires du premier fichier en partant d'une adresse de 
debut determinee, soit par recopie des donnees binaires du deuxieme fichier en partant d'une 
autre adresse de debut determinee. En d'autres termes, si Ton preleve sur chaque fichier un 
extrait a partir des positions de debut reperees, la condition d' extrait cornmun sera atteinte si il 
y a identite parfaite des contenus portes par la premiere donnee binaire de chaque extrait, puis 
de ceux portes par la donnee binaire suivante, et ainsi de suite. Typiquement, dans le cas de 
fichiers en format texte, chaque octet porte le code ASCII d'un caractere imprimable (alphabet 
latin, chiffre, ponctuation, et autres). L'identite parfaite des contenus de deux octets equivaut 
done a une identite parfaite des caracteres codes par ces octets. Tout extrait cornmun trouve est 
repere par un couple d'adresses de debut (une par fichier) et par une taille exprimee en nombre 
d'octets. 

On decrit ci-apres un exemple d'extrait pris sur un fichier texte court. Le texte choisi est «Le 
lievre et la tortue». Sa representation sous la forme de fichier en mode texte est representee a 
titre d'exemple sur le tableau ci-apres. La taille du fichier est de 22 octets. Les donnees 
binaires (octets) portent les codes ASCII qui sont associes a chaque caractere du texte et sont 
affichees en mode entier. 



Caractere du texte 


L 


e 




I 


i 


e 


V 


r 


e 




e 


Nombre entier du code ASCII 


76 


101 


32 


108 


105 


232 


118 


114 


101 


32 


101 


Adresse des donnees 


0 


1 


2 


3 


4 


5 


6 


7 


8 


9 


10 










Caractere du texte 


t 




I 


a 




t 


o 


r 


t 


u 


e 


Nombre entier du code ASCII 


116 


32 


108 


97 


32 


116 


111 


114 


116 


117 


101 


Adresse des donnees 


11 


12 


13 


14 | 


15 


16 


17 


18 


19 


20 


21 



L'extrait «lievre» se trouve dans le fichier. Sa representation sous la forme d'un tableau de 
donnees est sur le tableau suivant. II occupe 6 donnees binaires. Sa position de debut dans le 
fichier est Tadresse 3. 



Caractere de l'extrait 


I % 










':}■■;':■ 'Q&Vu.'i 


Nombre entier du code ASCII 


J 108: 


105 


232 


118 


11# ; 


10.1 


Adresse des donnees 


0 


1 


2 


3 


4 


5 
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On decrit maintenant un exemple d'extraits communs a deux fichiers texte courts. Les textes 
choisis sont «Le lievre» et «La tortue». Les representations sous la forme de fichiers en mode 
texte sont celles du tableau ci-apres. La taille de chaque fichier est de 9 octets. Les donnees 
binaires (octets) sont affichees en mode entier. 

5 



Caractere du 1 er texte 


L 


e 




I 




e 


V 


r 


e 


Nombre entier du code ASCII 


76 


101 


32 


108 


105 


232 


118 


114 


101 


Adresse des donn6es 


0 


1 


2 


3 


4 


5 


6 


7 


8 






Caractere du 2 eme texte 


L 


a 




t 


o 


r 


t 


u 


e 


Nombre entier du code ASCII 


76 


97 


32 


116 


111 


114 


116 


117 


101 


Adresse des donn§es 


0 


1 


2 


3 


4 


5 


6 


7 


8 



II y a done cinq extraits communs aux fichiers. lis sont presentes par ordre croissant d'adresses 
de debut sur le premier fichier : 
10 «L»: position (0, 0) et taille 1 

«e»: position (1, 8) et taille 1 

« »: position (2, 2) et taille 1 (caractere « espace ») 
«r»: position (7, 5) et taille 1 
«e»: position (8 5 8) et taille 1 
15 On indique que les caracteres «L» et «/» sont distincts car les valeurs de leurs codes ASCII 
sont differentes. 

Afin d'eviter une profusion des resultats de recherche, on utilise comme critere de selection 
une valeur de la taille minimale des extraits communs a trouver. On comprend facilement que 
la probability de trouver des extraits diminue quand la taille des extraits a rechercher 

20 augmente. En consequence, si Ton compare deux fichiers entre eux, le nombre d'extraits 
communs trouves diminuera quand on augmente la taille minimale des extraits a trouver. 
Dans le meme but, on essaye par ailleurs d'eliminer les resultats de recherche qui se 
recouvrent entre eux. Ce traitement est conseille mais n'est pas indispensable. Sa mise en 
ceuvre complete necessite en effet de memoriser V ensemble des resultats de recherche afin de 

25 pouvoir en eliminer ceux qui sont recouverts par d'autres resultats de recherche. 

On decrit ci-apres un autre exemple d'extraits communs a deux fichiers texte courts. Les textes 
choisis sont «Un mouton» et «Des moutons». La taille minimale des extraits communs 
recherches est de 6 octets. Les donnees binaires (octets) sont affichees en mode entier. 
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Les representations sous la forme de fichiers en mode texte sont sur le tableau ci-apres. 



Caractere du 1" r texte 


U 


n 






° 








3ng- 






Nombre entier du code ASCII 


85 


110 


32 


109 


111 


117 


116 


111 


110 






Adresse des donnees 


0 


1 


2 


3 


4 


5 


6 


7 


8 
















Caractere du 2 am8 texte 


D 


e 


s 




m 


o \ 


u 


? t 


; o\ \\ 




s 


Nombre entier du code ASCII 


68 


101 


115 


32 


109 


111 


117 


116 


111 


110 


115 


Adresse des donnees 


0 


1 


2 


3 


4 


5 


6 


7 


8 


9 


10 



On trouve un extrait commun aux fichiers: « mouton» a la position (2, 3) et de taille 7. 
Comme indique ci-avant, le caractere « » (espace) est traite comme une donnee. Deux extraits 
communs de taille 6 sont elimines des resultats de recherche car ils sont recouverts par l'extrait 
« mouton» de plus grande taille (7). II s'agit de : 

« mouto»: position (2, 3) et taille 6 

«mouton»: position (3, 4) et taille 6 

Ces principes de base etant definis, on decrit maintenant un algorithme de recherche dit 
« classique » et utilisant lesdits principes. Glbbalement, la strategic de recherche mise en 
ceuvre est d'examiner tous les couples possibles de positions de debut que peut prendre un 
extrait commun sur les deux fichiers a comparer. On definit par le terme « classique » 
T algorithme decrit ici. Toutefois, cette definition n'entend pas necessairement qu'il puisse se 
retrouver dans 1'etat de la technique. II faut simplement comprendre que Talgorithme au sens 
de la presente invention effectue des operations supplementaires, notamment d' elaboration de 
signatures numeriques, qui seront decrites plus loin. 

Pour chaque valeur de couple de positions de debut (une position de debut par fichier), une 
comparaison est effectuee entre les extraits qui peuvent etre preleves sur chaque fichier. Cette 
comparaison indique si la condition d'extrait commun est atteinte et determine la taille 
maximale de l'extrait commun trouve pour le couple de positions de debut considere. Le cas 
echeant, cette taille est enfin comparee a la valeur de la taille minimale des extraits communs a 
trouver. 

Pour tout couple de positions de debut sur les fichiers, une meme succession d'etapes est 
utilisee pour identifier Texistence d'un extrait commun. Les couples de positions de debut sont 
testes avec Pordre predefini suivant : 

debut de T analyse avec le couple de positions de debut (0,0), 
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ordre croissant des positions de debut sur le premier fichier, et ordre croissant des 
positions de debut sur le deuxieme fichier pour tous les couples ayant la meme position de 
debut sur le premier fichier, 

fin d'analyse pour le couple de positions (derniere donnee du premier fichier, derniere 
donnee du deuxieme fichier), 

le couple (n,m) repere finalement la position de debut n sur le premier fichier et la position 

de debut m sur le deuxieme fichier. 
Dans le cas ou la recherche a ete arretee pour afficher un extrait commun trouve a la position 
(n, m), la recherche d'autres extraits communs reprend a partir du couple de positions de debut 
suivant : 

(n, m+1) dans le cas general, ou 

(n+1, 0) dans le cas particulier ou la position m+1 depasse la derniere donnee du 2eme 
fichier et ou la position n+1 ne depasse pas la derniere donnee du premier fichier. 
En se referant a la figure 1, on fixe ainsi un couple de position de debut d' extrait a tester sur les 
deux fichiers (etape 11). On compare ensuite les premieres donnees de chaque extrait (etape 
12). En cas d'identite, on poursuit la comparaison avec les donnees suivantes de chaque extrait 
(etape 13). Sinon (dans le cas ou aucun extrait commun n'est trouve), les comparaisons 
s'arretent (etape 14). On reitere les memes etapes pour les deuxiemes donnees de chaque 
extrait (etapes 15, 16 et 17), et ce, jusqu'aux niemes donnees (etapes 18, 19 et 20). Par 
exemple, la comparaison peut se terminer si la taille d' extrait est atteinte pour la valeur n 
(etape 21). 

On decrit ci-apres une representation bidimensionnelle utilisant un tableau represente en figure 
2A. 

L'axe vertical Al porte les adresses des donnees du premier fichier. L'axe horizontal A2 porte 
les adresses des donnees du second fichier. Chaque case (m,n) du tableau represente un couple 
de position de debut a evaluer pour rechercher un extrait commun. 

Pour T exemple, la taille du premier fichier vaut 6 (adresses 0 a 5) et celle du second fichier 
vaut 10 (adresses 0 a 9). Les fleches F dans le tableau indiquent le sens de d£placement qui est 
utilise pour tester Pensemble des couples possibles de positions de debut d'extraits communs 
a trouver. 

L'exemple represente sur la figure 2B porte sur la recherche d'extraits communs de taille 
minimum 6 entre les textes «Un mouton» et «Des moutons ». L'axe vertical Al porte les 
adresses des donnees du premier fichier («Un mouton»). L'axe horizontal A2 porte les 
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adresses des donnees du second fichier («Des moutons»). Les cases grisees indiquent Fextrait 
commun trouve « mouton» de taille 7 (incluant l'espace precedant'le mot), commenfant par le 
couple de positions de debut (2,3). 

Comme les outils de programmation informatique imposent des contraintes sur la taille des 
tableaux de donnees pouvant etre utilises dans des programmes, un programme informatique 
reprenant cet algorithme procede preferentiellement a une decoupe prealable des fichiers en 
blocs de donnees consecutifs de taille reduite (la decoupe tient compte des recouvrements 
necessaires entre blocs permettant de garantir le test de Tensemble des couples de positions de 
debut d'extraits communs a rechercher). L'algorithme est ensuite applique sur l'ensemble des 
combinaisons possibles de couples de blocs de donnees. L'ordre de comparaison des couples 
de blocs de donnees est analogue a celui decrit precedemment, a savoir par les couples de 
positions de debut d'extraits. Mais, simplement ici, la comparaison porte sur des blocs de 
donnees plutot que de porter sur des donnees isolees. Typiquement, le premier bloc du premier 
fichier est compare au premier bloc du deuxieme fichier, puis aux blocs suivants du deuxieme 
fichier. Le bloc suivant du premier fichier est compare ensuite au premier bloc du deuxieme 
fichier, puis aux blocs suivants du deuxieme fichier, et ainsi de suite jusqu'a atteindre le 
dernier bloc de chaque fichier. 

En termes de performances, le temps d' execution du programme moteur de recherche en mode 
«plein texte » (c'est-a-dire par analyse de rintegralite du contenu des fichiers) depend 
essentiellement du nombre de comparaisons a effectuer entre donnees. Ce parametre est le plus 
important mais n'est pas le seul car il faut tenir compte aussi de la vitesse de transfert des 
donnees entre disque et memoire vive (RAM), puis entre memoire RAM et microprocesseur. 
Le nombre minimum de comparaisons a effectuer entre donnees pour accomplir la recherche 
d'un extrait commun de taille 1 est egal au produit : 

(taille du premier fichier) x (taille du second fichier) 
Pour la recherche d'extraits communs de taille minimum n, on optimise ralgorithme de 
recherche pour eliminer les positions de fin de fichier des couples possibles de positions de 
debut a analyser. Dans ce cas, le nombre minimum de comparaisons entre donnees a effectuer 
est ramene au produit : 

(taille du premier fichier - n + 1) x (taille du second fichier - n + 1) 
Pour des fichiers de grande taille, la valeur de ce nombre reste proche de celle du produit des 
tailles des fichiers. 
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Le programme selon l'algorithme de recherche classique utilise cette valeur pour estimer la 
duree totale et la vitesse de recherche par interpolation du nombre de couples de positions de 
debut deja teste et du temps de recherche ecoule. 

On decrit maintenant l'algorithme de recherche d'extraits communs au sens de la presente 
5 invention. 

Globalement, on cherche a ameliorer les performances de recherche en reduisant le nombre 
d'operations de comparisons a effectuer entre donnees par rapport a l'algorithme classique. 
La demarche retenue ici est d'effectuer les recherches en deux passes. Une recherche grossiere 
sur les Fichiers qui elimine rapidement des portions de fichier qui ne comportent pas d'extraits 
10 communs. Une recherche fine sur les portions de fichier restantes en utilisant un algorithme 
voisin de l'algorithme classique decrit ci-avant. Toutefois, comme on le verra plus loin dans 
certains cas de fichiers, la deuxieme passe n'est pas toujours necessaire et s'utilise 
preferentiellement pour des fichiers de textes a comparer. 

Pour la recherche grossiere, Palgorithme au sens de Finvention met en ceuvre un calcul 
15 avantageux de signatures numeriques sur les fichiers a comparer. Les « signatures 
numeriques » peuvent etre assimilees a des fichiers ou a des tableaux de donnees dont la taille 
est inferieure a celle des fichiers desquels ces signatures sont issues. 

Les signatures numeriques ont la propriete de pouvoir etre utilisees comme index des fichiers 
qui leur sont associes. En outre, une relation mathematique permet de mettre en 

20 correspondance un extrait quelconque d'une signature numerique avec une portion precise du 
fichier qui lui est associe. De plus, la position de debut d'un extrait de signature numerique est 
en correspondance avec un nombre fixe de positions de debut d'extraits sur le fichier qui est 
associe a la signature numerique. Inversement, a partir d'une certaine taille d'extrait, tout 
extrait de donnees pris sur un fichier peut etre associe a un extrait de la signature numerique. 

25 Les signatures numeriques ont aussi la propriete de pouvoir etre comparees entre elles pour 
identifier des extraits communs de signatures. 

On indique toutefois que la definition des extraits communs de signatures numeriques et les 
operations mathematiques utilisees pour effectuer les comparisons de signatures numeriques 
sont differentes de celles qui ont ete decrites ci-avant pour la recherche d'extraits communs a 
30 des fichiers. Les proprietes d' index des signatures numeriques sont exploitees pour interpreter 
les resultats de recherche d'extraits communs de signatures. En effet,pour un couple de 
positions de debut determine (une par signature numerique), l'absence d'extrait commun se 
traduit mathematiquement par une absence d'extrait commun entre deux portions de fichier 
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(une portion par fichier associe a chaque signature numerique). A 1' inverse, un extrait commun 
trouve entre deux signatures numeriques se traduit par 1' existence possible d'un extrait 
commun entre deux portions de fichiers (une portion par fichier associe a chaque signature). 
La recherche des extraits communs entre fichiers n'est effectuee que sur les portions de fichier 

5 qui sont reperees par les resultats positifs de recherche d'extraits communs de signatures 
numeriques. Tout extrait commun de signatures numeriques est repere par un couple de 
positions de debut dans chaque signature, et chaque position de debut de signature est en 
correspondance avec une portion de fichier delimitee par a un nombre fixe entier (N) de 
positions de debut dans le fichier. Chaque extrait commun de signatures numeriques trouve se 

10 traduit done par une recherche d'extrait commun entre fichiers sur un jeu reduit de (N x N) 
couples de positions de debut a tester. A F inverse, chaque couple de positions de debut qui est 
caracterise par une absence d'extrait commun de signatures numeriques se traduit par une 
economie de recherche d'extrait commun entre fichiers sur un jeu de (N x N) couples de 
positions de debut a tester. 

15 Le calcul des signatures numeriques conditionne la valeur de taille minimale des extraits 
communs a trouver entre fichiers. Le nombre fixe (N) de positions de debut d'extrait sur le 
fichier en correspondance avec chaque donnee de signature numerique est un parametre 
ajustable du traitement de calcul des signatures numeriques. 

La valeur de la taille minimale des extraits communs de fichiers qui peuvent etre trouves avec 
20 ralgorithme de recherche grossiere est determinee a partir de ce nombre au moyen d'une 
formule mathematique que Ton decrira en detail ci-apres. Cette valeur augmente quant celle du 
nombre fixe N de positions augmente. Ci-apres, on designe ce nombre N par le terme 
« rapport d 'index ». 

On verra plus loin et en detail que Palgorithme de recherche d'extraits communs de signatures 
25 numeriques a quelques similitudes avec ralgorithme de recherche classique d'extraits 
communs a des fichiers. 

On indique simplement ici que la strategie de recherche mise en oeuvre est d' examiner tous les 
couples possibles de positions de debut que peut prendre un extrait commun sur les deux 
signatures numeriques a comparer. La taille minimale de 1' extrait commun de signatures 
30 numeriques a trouver est determinee au moyen d'une formule mathematique que Ton decrira 
plus loin, a partir de la valeur du rapport d' index et de la taille minimale des extraits communs 
de fichiers a trouver. 
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Pour chaque valeur de couple de positions de debut (une position de debut par signature 
numerique), une comparaison est effectuee entre les extraits qui peuvent etre preleves sur 
chaque signature numerique. 

Ainsi, globalement, ralgorithme au sens de Tinvention enchaine les etapes de recherche 
5 suivantes : 

• Une recherche grossiere entre fichiers, avec calcul d'une signature numerique par fichier a 
comparer et une comparaison des signatures numeriques a la recherche d' extraits 
communs de signatures numeriques, et 

• Une recherche fine entre fichiers pour chaque extrait commun trouve de signatures 
10 numeriques, avec une mise en oeuvre de ralgorithme classique pour rechercher des extraits 

communs dans les portions de fichiers qui sont en correspondance avec les extraits 
communs de signatures numeriques. 

On decrit maintenant le principe de ralgorithme au sens de l'invention, de fafon plus detaillee. 
15 En se referant a la figure 3, le fichier de donnees DATA est decoupe en blocs consecutifs BLO 
de donnees dont la taille est egale a celle du rapport d' index. Globalement, le calcul de 
signature numerique associe une donnee de signature a chaque bloc de donnees du fichier. 
Dans rillustration de la figure 3, le rapport d'index vaut 4. 

20 On a represents sur les figures 4A et 4B des tableaux bidimensionnels d'une recherche 
d'extraits communs de taille minimale 6 entre les fichiers texte «Un mouton» et «Des 
moutons». Dans cet exemple, le rapport d'index vaut 2. La signature numerique du premier 
fichier comprend 5 donnees. La signature numerique du second fichier comprend 6 donnees. 
Les parties grisees de la figure 4A represented des extraits communs de signatures numeriques 

25 ECS entre les deux fichiers (par exemple la reference 41). Typiquement, en se referant a la 
figure 4B, cette reference 41 correspond a une zone de recherche reduite de 4 (2x2) couples de 
positions de debut d' extrait a tester sur les fichiers. Cette zone de recherche reduite est 
associee au couple (1,1) de positions de debut d' extrait commun de signatures numeriques. 

30 On decrit maintenant de fa9on detaillee des operations de calcul et de comparaison des 
signatures numeriques. 

Le calcul des donnees de signatures numeriques utilise une theorie mathematique de logique 
floue. 
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Habituellement, la logique binaire utilise un bit de donnees pour coder 2 etats logiques. Le 
code 0 est associe a l'etat «faux» 9 tandis que le code 1 est associe a l'etat «vrai». 
La logique binaire dispose d'un jeu d'operations logiques de comparaison entre etats binaires, 
comme represents sur les tables de verite des figures 5 A et 5B. 
5 Une donnee de 8 bits (un octet) peut stocker 8 etats binaires independants. 

Comparativement a la logique binaire, la logique floue utilise deux etats supplementaires qui 
sont l'etat indetermine « ? » (a la fois vrai et a la fois faux) et l'etat interdit « X » (ni vrai et ni 
faux). 

Les 4 etats de logique floue sont codes sur 2 bits, comme represents sur la figure 5C, ou les 
10 references BO et Bl represented done un codage des etats sur 2 bits (axe horizontal), tandis 

que Paxe vertical represente les differents etats de logique floue « 0 », « 1 », « ? » et « X ». 

Une donnee de 8 bits (un octet) peut stocker ainsi 4 etats flous independants. 

La logique floue dispose d'un jeu d'operations logiques de comparaison entre etats flous tels 

que representes sur les figures 5D et 5E, respectivement pour le « OU » en logique floue et le 
15 « ET » en logique floue. Le resultat de ces operations est simplement obtenu en appliquant une 

comparaison binaire OU ou ET a chaque bit de codage des composantes binaires des etats 

flous. 

On indique que, dans le contexte de l'invention, le calcul de signatures numeriques utilise 
20 Foperation OU pour determiner un etat flou commun a un bloc de donnees consecutives du 
fichier associe a la signature. Au depart, un etat binaire (0 ou 1) est associe a chaque adresse de 
donnee, dans un bloc de donnees du fichier. La taille du bloc de donnees est egale au rapport 
d' index, comme indique ci-avant. Les etats binaires sont ensuite compares entre eux pour 
determiner Fetat flou « 0 », « 1 » ou « ? » d'une donnee de la signature numerique. On associe 
25 ensuite une donnee de signature numerique au bloc de donnees du fichier. 

Ensuite, la comparaison des signatures numeriques, proprement dite, utilise Foperation ET 
pour determiner s'il y a ou non possibility d'avoir un extrait commun aux fichiers. Les 
decisions sont done prises en fonction de l'etat de logique floue qui est pris par le resultat de 
Toperation ET appliquee a des couples de donnees de signatures numeriques. 

30 

L'etat interdit X signifie qu'il n'y a pas d'extrait commun entre les fichiers dans les zones de 
donnees qui sont associees au couple courant de positions de debut d'extrait commun de 
signatures numeriques (avec un bloc par donnee de signature numerique). On decrira ce cas en 
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detail plus loin. Les etats « 0 », « 1 » ou « ? » signifient inversement qu'il y a possibility 
d'extrait commun entre les fichiers dans les zones de donnees qui sont associees au couple 
courant de positions de debut d'extrait commun de signatures numeriques. 

5 En se referant aux figures 6A et 6B 5 les signatures numeriques sont calculees en deux etapes : 
Une etape de calcul d'une signature binaire en associant un etat binaire a chaque adresse 
de donnee du fichier. Les lois de calcul utilisees permettent d'associer a rebours un extrait 
de fichier de taille fixe a chaque etat binaire, et 

Une etape de calcul d'une signature floue par comparaison entre eux des etats de la 
10 signature binaire sur des blocs de taille egale a celui du rapport d'index. Chaque bloc de N 

etats binaires consecutifs determine un etat flou. 
Dans Fexemple des figures 6A et 6B, le rapport d'index N vaut 2. Sur la figure 6A, la 
reference Add identifie les adresses respectives des donnees du fichier FIC et la reference Valb 
identifie les etats binaires associes respectivement aux adresses de ces donnees. Sur la figure 
15 6B, la meme reference Valb identifie les etats binaires associes respectivement aux memes 
adresses des donnees et la reference Valf identifie les etats en logique floue associes aux 
donnees de la signature numerique SN tiree du fichier FIC. On compte un etat de logique floue 
par bloc de N adresses, ou N est le rapport d'index (ici N=2). La succession « ? », « 0 », « ? », 
. . . des etats de logique floue Valb de la figure 6B s'interprete typiquement ainsi : 
20 - les etats binaires « 0 » et « 1 » des deux premieres adresses du fichier etant differents, 
1' operation OU en logique floue appliquee a ces etats donne « ? », 

les etats binaires « 0 » et « 0 » des troisieme et quatrieme adresses du fichier etant egaux a 
« 0 », 1'operation OU en logique floue appliquee a ces etats donne « 0 », 
les etats binaires « 1 » et « 0 » des cinquieme et sixieme adresses du fichier etant 
25 differents, 1' operation OU en logique floue appliquee a ces etats donne encore « ? », etc. 

On decrit ci-apres des exemples de calcul de signatures numeriques, avec un texte choisi «La 
tortue». Chaque caractere du texte est code sur un octet avec emploi du code ASCII. Chaque 
code ASCII est represents par la valeur du nombre entier qui est code par les 8 bits de 1* octet. 
Ce nombre est compris entre 0 et 255. Les etats binaires qui sont associes a chaque adresse de 
30 donnee sont determines, a titre d'exemple par une loi du type : 

- etat 0 si la valeur entiere du code ASCII du caractere est strictement inferieure a 1 1 1, 

- et etat 1 si la valeur entiere du code ASCII du caractere est superieure ou egale a 1 1 1. 
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Le tableau de la figure 7A montre les resultats qui sont obtenus pour le calcul des etats flous de 
signature numerique avec differentes valeurs de rapport d' index, de 2 a 4, pour le fichier texte 
«La tortue». 

La figure 7B montre maintenant les resultats obtenus pour le calcul des etats flous de signature 
5 numerique avec une valeur de rapport d 'index de 2, sur les deux fichiers textes «Le Uevre» et 
«La tortue». L'adresse de la donnee est celle de la position de debut de 1' extrait. La loi de 
determination des etats binaires est celle decrite ci-avant (valeur ASCII comparee a 1 1 1). 
Sur la figure 7C, on a represents un tableau bidimensionnel d'une recherche d'extraits 
communs entre les fichiers texte «Le lievre» et «La tortue», avec un rapport d'index de 2. La 
10 loi de determination des etats binaires qui sont associes a chaque adresse de donnees est 
identique a celle enoncee ci-avant (valeurs ASCII a comparer a 111). On a reference par les 
sigles AD1 et AD2 les adresses de blocs respectifs tires du fichier «Le lievre» et du fichier «La 
tortue» et par les sigles SN1 et SN2 les etats successifs en logique floue de ces blocs 
respectifs. Les cases non grisees indiquent les situations pour lesquelles il n'y a pas d' extrait 
15 commun de taille 1 entre les portions de fichier qui sont associees aux donnees de signatures 
numeriques. Les cases grisees indiquent au contraire les situations pour lesquelles il peut y 
avoir un extrait commun de taille minimale 1 entre les portions de fichier qui sont associees 
aux donnees de signatures numeriques. 

On decrit ci-apres les lois mathematiques utilisees pour le calcul des signatures numeriques, 
dans une realisation preferee. La description qui suit complete la premiere etape de calcul 
precitee d'une signature binaire de l'algorithme de recherche au sens de l'invention et decrit les 
lois mathematiques qui sont utilisees pour determiner les etats binaires qui sont associes a 
chaque adresse de donnee du fichier. Dans les exemples qui precedent, chaque etat binaire de 
signature numerique est determine par une loi simple qui repose sur la comparaison de la 
valeur entiere du code de chaque octet du fichier avec une valeur entiere de reference. L'interet 
de cette loi est limite toutefois, car chaque donnee de signature binaire ne caracterise a la fois 
qu'une seule donnee de fichier. L'interpretation du resultat des comparisons entre donnees de 
signatures floues (qui sont obtenues a la seconde etape du calcul) se limite ainsi a l'existence 
possible d'extraits communs aux fichiers de taille 1. L'absence ou l'existence possible d'un 
extrait commun aux fichiers de taille superieure a 1 ne peut etre detectee par une seule 
operation de comparaison entre donnees de signature floue. Pour remedier a cette situation, les 
lois mathematiques de determination des etats de la signature binaire sont choisies de maniere 
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a ce que chaque donnee de signature binaire caracterise un extrait de taille preferentiellement 
fixe du fichier. La taille des extraits de donnees est un parametre de la loi mathematique de 
determination des etats de la signature binaire. La valeur de ce parametre est toujours 
superieure ou egale a celle du rapport d'index. Grace a cette condition, le resultat d'une 
comparaison entre un couple de donnees de signatures floues peut s' interpreter soit par 
Pabsence soit par l'existence possible d'un extrait commun de fichier de taille au moins egale 
au rapport d'index (N) parmi le jeu (NxN) de couples de positions de debut d'extrait commun 
de fichier qui est associe au couple de donnees de signatures floues. 

De raeme, un extrait commun trouve de taille K entre signatures numeriques s'interprete par 
l'existence possible d'un extrait commun de fichier de taille au moins egale a NxK parmi le 
jeu (NxN) de couples de positions de debut d'extrait commun de fichier qui est associe au 
couple de positions de debut de 1' extrait commun trouve de signatures numeriques. 
On comprendra aussi que la proportion d' etats flous «?» augmente quand la taille du rapport 
d'index augmente. En consequence, l'etape de recherche d'extraits communs entre signatures 
numeriques devient beaucoup moins selective lorsque le rapport d'index augmente. En effet, si 
les donnees d'une signature numerique sont toutes egales a l'etat « ? », la comparaison de cette 
signature avec une autre signature numerique n'eliminera aucun couple de positions de debut 
d'extrait a rechercher sur les fichiers qui sont associes aux signatures. Pour remedier a cette 
situation, la loi de determination des etats binaires doit etre choisie de maniere a ce que l'etape 
de calcul des etats flous (par comparaison de blocs d' etats binaires) genere une faible 
proportion d'etats « ? » et inversement une proportion elevee d'etats «0» ou «1». 
On decrit ci-apres un traitement pour ameliorer la selectivity des signatures numeriques. Les 
explications qui suivent utilisent des resultats de theories mathematiques des domaines de 
l'algebre des transformations et du traitement numerique de signaux. 

On rappelle que la transformation de Fourier est une transformation mathematique qui fait 
corresponds a une fonction f(t) de la variable t une autre fonction F(f) de la variable f selon la 
formule suivante : 



Une propriete de la transformation de Fourier est la reciprocite, permettant d'obtenir a rebours 
la fonction f(t) a partir de F(f) par la formule suivante : 




-00 




-00 
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Cette formule indique que toute fonction reelle f(t) peut se decomposer en une somme infinie 
de fonctions cosinusoides pures de frequence f, d'amplitude 2.| F(f) | et de phase cp(f). 



Les variations de la fonction cos(27tft + 9) sont representees sur la figure 8A pom: diverses 
valeurs de la phase q>. La fonction est periodique et sa periode T est egale a 1/f. Elle est 
positive sur des intervalles de taille T/2 et negative sur des intervalles complementaires de 
taille T/2. 

Cette derniere propriete va etre mise a profit pour le choix des lois de determination des 
signatures binaires. On associe a la fonction s(t) = cos(27ift + (p) une loi Etat s (t,p) de 
determination d'etats flous a deux variables. On note T = 1/f. 

La loi Etat s (t,p) est definie pour toute valeur reelle de t et pour toute valeur reelle positive du 
parametre p (a rapprocher du rapport d' index precite) : 

Etat s (t,p) ~ 1 si V x g [t, Hp], s(x) > 0 

Etat s (t,p) = 0 si V x e [t, t+p], s(x) < 0 

Etat s (t,p) = ? sinon 

Sur la figure 8B, on a represents une fonction cosinusoide ou p est voisin de 0,6.T. Pour tout 
intervalle [t,t+p] 9 la fonction s(t) prend a la fois des valeurs positives et negatives, de sorte que 
Etat s (t 5 p) = ? Ainsi, si le parametre p est plus grand que T/2, on aura « Etat s (t 5 p) = ? >>, pour 
tout t. 

On a represents sur la figure 8C les etats flous de la loi Etat s (t,p) pour des valeurs fixes de p 
comprises maintenant entre 0 et T/2 (p=0 ? 3T dans Texemple represente). Les probabilites de 
tirage des etats flous sont obtenues en relevant sur un intervalle de taille egale a la periode T (T 
= 1/f) la taille cumulee des intervalles de la variable t qui produisent chaque etat flou possible 
(0, 1 ou ?), puis en divisant cette taille cumulee par T. 
Ci-apres, les notations suivantes sont utilisees : 

Probability de tirage de l'etat 1: Pl(fjp) 

Probabilite de tirage de l'etat 0: P0(f,p) 

Probabilite de tirage de l'etat ?: P?(f,p) 
On obtient les resultats suivants pour la loi Etat s (t,p): 




0 



avec F(f) = | F(f) | e 



iTC(p(f) 



Pourp e [0,T/2] 

Pl(f 5 p) = P0(f ? p) = (T/2 - p)/T = 1/2 - p/T = 1/2 - pf 
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P?(f,p) = 1 - Pl(f,p) - P0(f,p) = 2pf 
Pour p plus grand que T/2 

Pl(f,p) = P0(f,p) = 0 
P?(f,p)=l 

On rappelle encore que les probability de tirage des etats flous ont ete obtenues apres 
application a la fonction s(t) = cos(27ift 4- <p) de la loi Etat s(t,p) de determination d'etats flous. 
On remarquera aussi que la probabilite de tirage des etats flous ne depend pas de la phase cp de 
la fonction s(t) = cos(2nft + cp) . 

En se referant aux figures 9A, 9B et 9C, la representation graphique des variations des 
probability Pl(f,p) P0(f 5 p) et P?(f,p) en fonction de la frequence montre que la probabilite de 
tirage des etats 1 et 0 croit quand la frequence f diminue. Inversement, la probabilite de tirage 
de l'etat « ? » croit quand la frequence f augmente. 

On va chercher maintenant a appliquer cette observation a la comparaison de donnees binaires 
au sens de Finvention. 

L'echantillonnage d'une fonction f(t) de la variable t consiste a relever les valeurs qui sont 
prises par cette fonction a des instants T n qui sont espaces entre eux d'un intervalle fixe Te. 
Les notations suivantes sont utilisees : 

n numero d'echantillon (entier compris entre -co et +oo) 

T n instant de Techantillon n: T n = n.Te 

f n valeur de l'echantillon n: f n = f(T n ) 
Dans la theorie du traitement du signal, le theoreme de Shannon montre que roriginal d'une 
fonction f(t) peut etre obtenu a rebours a partir des echantillons f n si le spectre frequentiel de la 
transformee de Fourier F(f) associee a f(t) est strictement borne par rintervalle [-Fe/2 9 Fe/2], 
avec Fe = 1/Te. 

Dans cette condition, la fonction f(t) est obtenue apres application d'un filtrage passe-bas ideal 
dans la bande de frequence [-Fe/2, Fe/2] sur la transformee de Fourier du signal echantillonne 
F(f). 

Pour la suite, on considere que les fichiers de donnees presentent des echantillons f n d'une 
fonction f(t) qui satisfait aux conditions precedentes. En particulier, chaque adresse de donnee 
correspond a un numero d'echantillon n. Chaque donnee stocke la valeur d'un echantillon 
(typiquement un entier code sur les bits d'un octet). 
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La transformee de Fourier du signal associe aux echantillons f n d'un fichier de donnees est la 
suivante : 

+co 

F(t) = | f{t\e 2i ^dt, avec f{t) = /„ pour t = T„et f(t) = 0 pour t * T n (ou T„ = n.Te) 

-co 

On notera que le choix de la periode d'echantillonnage Te est libre ici. 
5 La transformee de Fourier s'exprime aussi dans ce cas par la formule simplified suivante : 

n = N 

£(f) = Z f n e ~ 2mfTn avec N + 1 = taille du fichier de donnees 
n = 0 

La transformee de Fourier F(f) de 1' original de la fonction f(t) qui est associee aux echantillons 
f n s'obtient par application du theoreme de Shannon : 

F(f) = F(f)/Fe pour f e [ -Fe/2, Fe/2 ] 

10 F(f) = 0 pour les autres valeurs de f 

La fonction f(t) qui est associee aux echantillons f n est obtenue par application de la 
transformee inverse de Fourier. 

r+oo oiitft CFe/2 a 2\nfi 

f(t) = J F(f) e ZmU df = J (F(f) / Fe) e* nn df 

-oo -Fe/2 

fFe/2 " = N -2i7i1T n 2i7ift 

= J ( E ( f n /Fe > e ) e df 

->FeI2 n = 0 

n = 0 -Fe/2 n = 0 2i7tFe(t - nTe) " Fe/2 

15 et s'exprime fmatement sous la forme d'une somme fmie de termes en : 

f(x) = sin(x)/x, ou x = 7iFe(t - nTe), soit : 

n = N n = N 

f(t) = X f n sin(7iFe(t - nTe)) = £ f n (t) 
n = 0 7iFe(t - nTe) n = 0 

On a represents sur la figure 10 un exemple de representation de la fonction f(t) associee aux 
donnees du fichier texte «Le lievre», en fonction du rapport t/T. 
20 On indique que les relations precedentes entre une fonction f(t) et un jeu d' echantillons 
f n = f(nTe) s'appliquent pour toute fonction qui satisfait aux conditions de Shannon. 
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Elles s'appliquent done aussi pour la fonction s(t) = cos(27ift + cp) si Ton verifie la condition : 
f e [ -Fe/2, Fe/2 ] 

On peut alors representer s(t) par un jeu infini d'echantillons s n pris sur s(t) aux instants 
t n =nTe. 

On rappelle la loi Etat s (t,p) precedemment definie pour toute valeur reelle de t et pour toute 
valeur reelle positive de p: 

Etat s (t,p) = 1 si V x e [t, t+p], s(x) > 0 

Etat s (t,p) = 0siVxe[t, t+p], s(x) < 0 

Etat s (t,p) = ? sinon 

Les proprietes de cette loi peuvent etre simplement transposees dans le domaine des 
echantillons s n si Ton s'interesse a la loi suivante de determination d'etat flous definie sur une 
sequence de k echantillons consecutifs {s n , s n+ i, s n+k .i}. 

Etat s (n,k) = 1 si V i e {0, k-l} ? s n+i > 0 

Etat s (n,k) = 0 si V i e {0, k-1}, s n+i < 0 

Etat s (n 9 k) = ? sinon 

Les probabilites de tirage des etats flous associes a la loi Etat s (n 9 k) s'obtiennent simplement a 
partir de la loi Etat s (t,p) en rempla9ant p par (k-l)Te. 

On obtient ainsi la representation graphique des probabilites de tirage des etats 1 ou 0 de la loi 

Etat s (n 5 k) en fonction de la frequence de la fonction s(t) associee aux echantillons s n . 

Dans l'exemple de la figure 11, k est fixe a 3. La probability de tirage de 3 echantillons 

consecutifs de s(t) tels que s(nTe) 3 s((n+l)Te), s((n+2)Te) soient superieurs a 0 est donnee 

parPl(f,3), laquelle est nulle pour f superieure a l/2p avec p = (3-l)Te = 2/Fe, soit encore 

pourf>Fe/4. 

On va etendre la definition des lois de determination d'etats flous au cas d'une fonction 
quelconque f(t) qui satisfait aux conditions de Shannon. Dans ce cas general, la loi Etat f(t,p) 
est definie pour toute valeur reelle de t et pour toute valeur reelle positive de p: 

Etatf(t,p) = 1 si V x e [t, t+p], f(x) > 0 

Etatf(t,p) = 0 si V x e [t, t-fp], f(x) < 0 

Etat f(t,p) = ? sinon 

Cette loi de determination d'etats flous est egalement transposee dans le domaine des 
echantillons f n sur des sequences de k echantillons consecutifs {f n , f n +i, . . . , f n +k-i}- 

Etat^k) = 1 si V i e {0, k-1}, f n+i > 0 

Etatf(n,k) = 0 si V i e {0, k-1}, f n+i < 0 
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Etatf(n ? k) = ? Sinon 

Contrairement au cas particulier deja traite ou f(t) est une sinusolde pure de frequence f, il n'y 
a pas de relation mathematique simple qui permette de calculer ici les probabilites de tirage des 
etats flous a partir de la transformed de Fourier F(f). 
5 On peut par contre s'inspirer des proprietes des probabilites de tirage des etats flous associes 
aux lois Etat s (n,k) et Etat s (t,p) pour deduire que 1* application d'un filtrage passe-bas sur une 
fonction quelconque f(t) se traduit par Y augmentation des probabilites de tirage des etats 0 et 1 
et par la diminution de la probability de tirage de Petat ? qui sont associes aux lois Etatf(n,k) et 
Etatf(t ? p). 

10 Dans le cas de la loi Etat t(n,k), on sait que si la fonction f(t) est une sinusoide pure de 
frequence f, on aura pour f > Fe/2(k-l) et k > 1 
Pl(f,k) = P0(f,k) = 0 
P?(f s k) - 1 

Si Ton applique un filtrage passe-bas ideal dans la bande de frequences [-Fe/2(k-l) 5 Fe/2(k-l)] 
15 a une fonction f(t), on comprend que les probabilites de tirage des etats 1 et 0 vont augmenter 
puisque chaque composante frequentielle R^f) du signal resultat r k (t) contribue au resultat 
final avec une probability individuelle non nulle de tirage pour les etats 0 ou 1. 
On peut demontrer cette assertion dans le cas d'une fonction de bruit aleatoire b(t) pour 
laquelle F amplitude du spectre B(f) est constante dans la bande de frequences [-Fe/2, Fe/2]. 
20 Dans le cas d'une fonction de bruit aleatoire b(t), on sait que les probabilites de tirage d'un 
echantillon sont : 

Pl b (fe=l) = P0 b (k=l)=l/2 

P? b (k=l) = 0 
Pour 2 echantiHons consecutifs, on obtient: 
25 Pl b (k=2) = P0 b (k=2) = (1/2) 2 

P? b (k«2) = 1 - Pl b -P0 b - 1 - 2 x(l/2) 2 
Et pour n echantillons consecutifs, on obtient: 

Pl b (k=n) = P0 b (k=n) = (l/2) n 

P? b (k=n) = 1 - Pl b -P0 b - 1 - 2 .(l/2) n 
30 Ainsi, pour un grand nombre d'echantillons successifs, les probability de tirage des etats « 0 » 
et « 1 » tendent vers 0 tandis que la probability de tirage de Tetat indetermine « ? » tend vers 1. 
On considere maintenant une fonction r„(t) qui est obtenue par application d'un filtrage passe- 
bas ideal a la fonction b(t) dans la bande de frequences [-Fe/2(n-l), Fe/2(n-l)]. On a alors 
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observe que la representation des spectres de Rn(f) 5 de Pl(f,n), de P0(f,n) et de P?(f,n) s'obtient 
par simple homothetie des spectres de R 2 (f) 5 de Pl(f,2), de P0(f,2) et de P?(f,2), comme le 
montrent les figures 12A et 12B. On a represente aussi sur la figure 12A F amplitude du spectre 
B(f) associe a la fonction b(t). On a represente aussi sur la figure 12B l'amplitude du spectre 

5 Rn(f) associe a r n (t). 

On en deduit qu'il y a egalite entre les probability de tirage de n echantillons consecutifs du 
signal de bruit filtre r n (t) et celle de tirage de 2 echantillons consecutifs du signal de bruit non 
filtre b(t). Les probability de tirage d'un etat 1 ou d'un etat 0 pour n echantillons consecutifs 
du signal de bruit filtre r n (t) valent 1/4, tandis que la probability de tirage d'un etat « ? » pour n 

10 echantillons consecutifs du signal de bruit filtre r„(t) vaut 1/2. 

En conclusion, on ameliore la selectivite des signatures numeriques en appliquant un filtrage 
passe-bas a la fonction f(t) qui est associee aux echantillons f n = f(nTe). 

Les etapes de traitement et les relations entre donnees de fichiers, echantillons et fonctions 
peuvent etre resumees comme represente sur la figure 13. A Fetape 131, on recupere les 
15 donnees d n d'un fichier a traiter, lesquelles sont echantillonnees a Fetape 132 pour obtenir les 
echantillons f n qui sont des nombres entiers codes par les donnees d n . Selon le theoreme de 
Shannon (etape 132'), ces echantillons sont associes a une fonction f(t) de spectre F(f) borne 
et : 

F{f ) = 0 pour f <£ [- Fe/2 a Fe/2] 

20 En appliquant un filtre passe-bas (etape 135') a cette fonction F(f) , on obtient la fonction R(f) 
correspondant a la transformee de fourrier de la fonction r(t) (etape 133') dont les echantillons 
r n sont tels que r n = r(n.Te)=r(n/Fe) selon le theoreme de Shannon (etape 133). 
En pratique, on appliquera preferentiellement un filtre numerique passe-bas, a Fetape 135, 
directement aux echantillons f„ pour obtenir les echantillons r n a Fetape 133. Ce filtre 

25 numerique sera decrit en detail plus loin. On applique enfin une loi de determination d'etats 
flous aux echantillons filtres r n pour obtenir les donnees de signature numerique 
Sn/k =Etat r (n,k), sur k echantillons consecutifs {r„, r n+b . - r n+k -i}, n etant un multiple de k (etape 
134). 

Comme indique ci-avant, ces etapes de la figure 13 peuvent neanmoins etre simplifiees en 
30 effectuant directement le calcul des echantillons r n a partir des echantillons f n , en utilisant un 
filtre numerique. 

Dans ce qui suit, on adopte les notations suivantes : 

Filtre(f) : transformee de Fourier de Foperateur de filtrage 
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filtre(t) : fonction associee a Filtre(f) par application de transformee inverse de Fourier 
Le theoreme de Borel donne la relation : 
R(f) = Filtre(f)xF(f) 

Cette relation se traduit sur les fonctions r(t), filtre(t) et f(t) par une formule du type : 

r+oo f+oo 

r(t) = J f(u) x filtre (t-u) du = J f(t-u) x filtre(u) du 

-oo -oo 

5 

Si Ton considere les fonctions qui sont associees aux echantillons (et qui respectent les 
conditions de Shannon), cette relation devient : 

k = +oo k = +oo 

r n = r(nTe) = 2 f (nTe - kTe) x f iltre(kTe) = E V) x f iltre * 
k s -oo k = -oo 

Le filtrage numerique consiste done a definir un jeu de coefficients filtre k que l'on va utiliser 
1 0 pour calculer chaque echantillon r n par application de la formule ci-dessus. 

Dans la pratique, on essaye de s'approcher au mieux d'un gabarit predefini de filtre en limitant 
la taille du jeu de coefficients filtre k . Le compromis a trouver depend des facteurs suivants : 
- La precision du filtre realise s'ameliore quand le nombre de coefficients du filtre numerique 
augmente, 

15 - Inversement, la vitesse de calcul des echantillons r n diminue quand le nombre de coefficients 
augmente. 

Si le nombre de coefficients vaut K, chaque calcul d'echantillon r n se traduit par K operations 
de multiplication et par (K~l) operations d' addition. 

Pour les filtres numeriques utilises par l'algorithme de recherche au sens de l'invention, le 
20 critere principal retenu est la vitesse de calcul des echantillons r n . 

Dans une realisation preferee, le choix porte sur une famille particuliere de filtres dits a 
«valeur moyenne» pour lesquels les coefficients du filtre numerique sont identiques, de sorte 
que : 

filtre k = Cte pour k entier e [-K 9 K] 
25 filtrek = 0 pour les autres valeurs de k 

Liquation du filtre numerique se simplifie sous la forme suivante : 

k = +K 
r n = CtexH f (rvk) 
k = -K 
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Pour ce filtre a 2K+1 coefficients, le calcul d'un echantillon r n ne se traduit plus alors que par 
2K-H operations d' addition, et par une operation de multiplication si le terme Cte est different 
de la valeur 1. 

On remarque par ailleurs que F echantillon r (n +i) peut s'obtenir simplement a partir de r n par la 
5 relation r (n +i) = r n + Cte(f (n +K+i) - f(n-K)) 

De fa9on particulierement avantageuse, en appliquant cette derniere relation, le calcul de 

chaque nouvel echantillon r (n+ i) ne se traduit plus que par deux operations d'addition. 

La reponse frequentielle du filtre numerique a valeur moyenne s'obtient a partir de la 

transformee de Fourier de Foperateur de sommation a(t) suivant : 
10 cr(t) = 1 pour t e [-T/2, T/2] 

a(t) = 0 ailleurs 

Le filtrage de f(t) par Foperateur a(t) se traduit alors par la formule : 

f+oo fT/2 

r(t) = I f(t-u) x o(u) du = J f(t-u) du 
-oo . T/2 

La reponse frequentielle de Foperateur a(t) est S(f) avec: 



15 



20 



S(0=r°<,(t>e- 2taft dt= J TC e 2i "« dt 

-oo 



On obtient finalement : 

Z(f) = T sin(7tfT) 

7lfT 

La reponse frequentielle du filtre a valeur moyenne s'obtient en divisant ensuite celle de 
Foperateur sommation 2(f) par T. 

Filtre(f) = Emoy(f) = S(f) / T = Sm{nTT) 

La reponse frequentielle du filtre numerique a valeur moyenne sur K echantillons consecutifs 
s'obtient ensuite en remplafant T par (K-l)Te ? soit : 

Filtre(K,f) = Smoy(K,f) = (K-1)Te sin^K-DTe) 

7if(K-1)Te 

Selon la parite de K, deux equations de filtre numerique sont utilisees pour le calcul des 
25 echantillons r„. 
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k = +K/2 

Pour K impair on a: r n = (1/K)xJ f (n+k) 

k = -K/2 
k = (K/2) -1 

Pour K pair on a: r n = (1/K) x £ f< n +k) 

k = -K/2 

On a represents sur la figure 14 des exemples de trace de Filtre(K,f) = 2moy(K,f) pour 
quelques valeurs de K, en fonction de f/Fe. La premiere coupure du filtre a zero intervient pour 
f=Fe/(K-l). 

On sait par ailleurs que l'application d'un filtrage passe-bas ideal dans la bande de frequences 
[-Fe/2(n-l), Fe/2(n-l)] se traduit par les probabilites de tirage suivantes pour des etats flous 
calcules sur des sequences de n echantillons consecutifs : 

Pl=P0 = l/4 

P? = 1/2 

On peut se rapprocher d'un gabarit de filtrage passe-bas ideal en choisissant un filtre 
numerique a valeur moyenne dont la frequence de coupure a zero intervient a f = Fe/2(n-l) : 
cette condition est atteinte pour K = 2n-l 

Dans la pratique, 1' application d'un filtre numerique a valeur moyenne se traduit bien sur pax 
des probabilites de tirage des etats flous qui different de celles obtenues avec un filtre passe- 
bas ideal. La determination de la valeur de K est faite de maniere empirique en sachant que les 
probabilites obtenues avec K = 2n-l seront proches de celles du filtre ideal, et que les 
probabilites de tirage PI et PO augmentent aussi avec la valeur de K. 

On decrit ci-apres les adaptations apportees aux lois de determination d' etats flous, notamment 
en fonction de ce qui precede. 

Les calculs de probabilites sur le tirage des etats flous prennent pour hypothese que les 
donnees de fichiers represented les valeurs d'echantillons d'un signal f(t) de valeur moyenne 
nulle. Cette condition se traduit encore par la relation suivante : 




-00 
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Les resultats obtenus sur les probabilites de tirage des etats flous ne sont done valides que si 
cette condition est respectee pour les echantillons f n : 
n = +00 

E f„ = o 

n = -00 

Dans le cas d'un fichier d' echantillons de taille N, cette condition devient : 

n = (N-1) 
Z fn = 0 
n = 0 

Or, les conditions precedentes de valeur moyenne nulle ne sont pas systematiquement 
satisfaites lorsque Ton determine les valeurs des echantillons a partir des donnees binaires d'un 
fichier. Ces conditions ne sont par exemple pas satisfaites si Ton utilise la loi de codage 
« entier non signe » pour representer les valeurs des echantillons associes aux donnees d'un 
fichier. En effet, dans ce cas chaque octet represente un entier compris entre 0 et 255, ce qui 
conduit a une valeur moyenne d'echantillons de 127,5 pour un fichier de contenu aleatoire. 
Pour palier ce probleme, on introduit comme suit un parametre de valeur de reference Vref 
dans la loi de determination d'etats flous sur les sequences de k echantillons consecutifs r n {r n , 
r n +b r n+k .i} qui ont ete obtenus par filtrage numerique a partir des echantillons f n : 

Etat r (n,k) = 1 si V i e {0, k-1}, r n+i >- Vref 

Etat r (n,k) « 0 si V i e {0, k-l} 9 r n+i < Vref 

Etat r (n,k) = ?Sinon 

Le choix de la valeur Vref est alors fait pour s'approcher au mieux de la valeur moyenne prise 
par les echantillons f n du fichier de donnees. 

Dans le cas ou 1' application de recherche est ciblee sur la comparaison de fichiers de meme 
nature, comme par exemple des fichiers texte, la valeur de Vref doit etre fixee en connaissance 
de la loi de codage des donnees du fichier et des probabilites de tirage de chaque code. 
Pour la realisation du programme informatique de recherche plein texte, dans une realisation 
preferee, on considere que le format des fichiers a comparer ne serait pas connu a l'avance. On 
determine done la valeur de Vref en procedant a une analyse prealable des fichiers a comparer. 
Pour cette realisation, la valeur de Vref est calculee pour chaque echantillons r n en effectuant 
un calcul de valeur moyenne des echantillons fk sur une sequence de taille fixe, Kref, centree 
sur f n , avec : 
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k = +Kref/2 



Vref n = (1/Kref)x2 



1 



(n+k) 



k = -Kref/2 



Sachant que les echantillons r n sont deja obtenus par un calcul de valeur moyenne sur des 
sequences de K echantillons consecutifs ft, la taille de la sequence Kref (utilisee pour le calcul 
de Vref n ) eat choisie superieure a celle de K (utilisee pour le calcul des echantillons r n ). 
La loi de determination des etats flous sur les sequences de k echantillons consecutifs r n {r n5 
r n +i, - - r n +k-i} devient alors : 

Etat r (n,k) = 1 si V i e {0, k-1}, r n+i >- Vref n+i 

Etat r (n,k) = 0 si V i e {0, k-1}, r n+i < Vref n+i 

Etat r (n,k) = ?Sinon 
Cette loi se simplifie en posant r' n = (r n - VreQ. Alors : 

Etat r (n,k) = 1 si V i e {0, k-1}, r' n+i >= 0 

Etat r (n,k) = 0 si V i e {0, k-1}, r' n+i < 0 

Etat r (n,k) = ? Sinon 
Pour K pair et Kref pair, la formule du filtre numerique est : 



On retiendra que la reponse frequentielle du filtre numerique associe au calcul des echantillons 
r' n s'obtient simplement a partir de celle de Emoy(K,f) : 



Le choix de la valeur de K est fait de maniere a ce que la frequence de coupure a zero du filtre 
soit inferieure cm egale a celle qu'il faudrait utiliser pour un filtre passe-bas ideal qui permette 
d'obtenir des probabilites de tirage d' etats 1 ou 0 egales a 1/4. On rappelle que cette frequence 
de coupure de filtre passe-bas ideal s'obtient en fonction du rapport d'index k par la formule 
Fe/(2.(k-l)) et que cette condition est atteinte sur £moy(K,f) pour K plus petit ou egal a 2k -1. 
Le choix de Kref est fait de maniere a 6tre superieur a K, sans etre non plus trop eleve. 
Pour la realisation preferentielle du programme informatique de recherche plein texte, on 
ajuste automatiquement les valeurs a utiliser pour K et Kref en fonction de la valeur k voulue 
pour le rapport d'index. Les valeurs de K et de Kref sont choisies en tant que multiple de k, ce 
qui facilite les calculs d'adresse des donnees, done : 




k = (K/2) -1 



k = (Kref/2) -1 
- (1/Kref) 2 f (n+k) 




Filtre(f) = 2moy(K,f) - Smoy(Kref,f) 



K = interv x k et Kref == intervref x k 
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La reponse du filtre numerique ajuste pour un rapport d'index k est 

Filtre(k,f) = 2moy(interv x k,f) - Emoy (intervref x k,f) 
Pour la realisation du programme informatique de recherche plein texte, quatre lois de 
determination d'etats flous sont simultanement utilisees, dans une realisation particuliere. 
Les etats flous determines par la premiere loi sont codes sur les 2 bits de poids faible de 
chaque donnee de signature numerique. Les etats flous determines par la deuxieme loi sont 
codes sur les 2 bits de poids faible suivants de chaque donnee de signature numerique, et ainsi 
de suite, jusqu'a occupation complete des 8 bits (soit done 1 octet) de chaque donnee de 
signature numerique. 

Les quatre lois sont caracterisees par un jeu de parametres intervl, interv2, interv3, interv4 et 
intervref. Le meme parametre intervref est utilise pour chaque loi. Pour un rapport d'index k, 
le choix par defaut s'est porte sur le jeu suivant de filtres numeriques associes a chaque loi de 
determination d'etats flous : 

Filtrel(k,f) = 2moy(2k,f) - Emoy(14k,f) 

Filtre2(k,f) = Smoy(3k,f) - Smoy(14k,f) 

Filtre3(k,f) = Smoy(5k,f) - Zmoy(14k,f) 

Filtre4(k,f) = Emoy(7k,f) - 2moy(14k,f) 
La figure 15 illustre la reponse frequentielle des filtres numeriques par defaut ajustes pour un 
rapport d'index k = 5. Les formules des filtres numeriques par defaut ajustes pour un rapport 
d'index k sont : 



r1 n =(1/2k)E f (n+k) - (1/14k) S f ( 



k = (2k/2)-1 k = 7k-1 



k = -2k/2 k = -7k 



(n+k) 



k = (3k/2)-1 k = 7k-1 



r2 n =(1/3k)E f (n+k) - (1/14k) 2 f ( 



(n + k) 



k = -3k/2 k = -7k 



r3 n = (1/5k)2: f (n+k) - (1/14k) E f ( 



k = (5k/2)-1 k = 7k-1 



k = -5k/2 k = -7k 



'(n+k) 



r4 n = (1/7k)E Vk) - (1/14k) 2 f ( 



k = (7k/2)-1 k = 7k-1 



k = -7k/2 k = -7k 



(n+k) 



Pour eviter les bruits de calcul occasionnes par les divisions, dans une realisation avantageuse, 
on calcule d'abord les sommes, puis on effectue ensuite les tests de signe sur termes r n en 
multipliant la premiere somme par Kref et la deuxieme somme par K. 
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On decrit maintenant une optimisation complete pour r application a un moteur de recherche 
plein texte. 

Cette optimisation commence par la determination d'un rapport d'index approprie. 
Pour etre independant des choix particuliers qui pourraient etre retenus pour la realisation des 
filtres numeriques passe-bas (figure 13), on utilise l'equation generate suivante pour le filtre 
numerique : 

i = +12 
r n =S fi'tre, xf (n+l) 
i = -11 

Cotnme indique relativement a la figure 13, chaque donnee de signature numerique Sn/k est 
determinee a partir d'un groupe de k echantillons consecutifs {r n , r n+ i, r n +2, • r*+k-i}, k 
designant la valeur du rapport d'index et n etant choisi multiple de k. Cette determination peut 
etre decomposee en deux etapes : 

- la determination d'un etat binaire eb n associe a chaque echantillons r n , avec : 

eb n = 0 si r n < 0, et eb„ - 1 sinon 

- la determination d'un etat flou par un OU logique sur le groupe d' etats binaires 
consecutifs {eb n , eb n +i, eb n+2 , eb n+k .i}: 

Sn/k = (eb n ou eb n+l ou eb n +2 ou . . . ou eb n +k-i) 
On a illustre sur la figure 16A les relations entre adresses de donnees de fichier et adresses de 
donnees de signatures numeriques. On observe que dans le cas d'un choix de rapport d'index 
k, chaque donnee de signature numerique d'adresse (n/k) est determinee a partir d'un groupe 
de (II + k + 12) donnees de fichier: { f„. n , fn+iMc-i}. On notera aussi que dans le cas ou les 
adresses utilises pour le calcul des echantillons r n debordent de la plage des donnees du 
fichier a indexer, les etats eb n associes sont initialises a l'etat flou « ? ». Sur la figure 16A, les 
echantillons f n sont tires des donnees du fichier. On leur applique ensuite le filtrage numerique 
pour obtenir les echantillons filtres r n en correspondance des etats eb n associes. Les etats flous 
Sn/k correspondant aux donnees de signature numerique sont ensuite determines par la 
comparaison mettant en jeu le OU logique : 

Sn/k = (eb n ou ebn+icu eb n +2 ou . . . ou ebn+k-i) 
en respectant avantageusement les memes adresses de depart des echantillons f n . 
Pour V application au moteur de recherche plein texte, la valeur k du rapport d'index 
conditionne la valeur de taille minimale d'extraits communs a deux fichiers qui peuvent etre 
detectes en procedant par une recherche d'extraits communs de signatures numeriques. Cette 
taille minimale d'extrait commun de fichier est obtenue lorsque la taille de l'extrait commun 
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aux signatures nurneriques est egale a 1. Dans ce cas, la condition de detection de l'extrait 
commun de fichier impose que le groupe des donnees consecutives de l'extrait a trouver 
recouvre le groupe des donnees consecutives utilisees pour le calcul de chaque donnee de 
signature numerique. 

5 En prenant les notations tc Xt pour la taille d'extrait commun de fichier a trouver et tgign pour la 
taille du groupe de donnees utilisees pour le calcul d'une donnee d'index, on demontre la 
relation te Xt > ts ign + (k -1). 

On a represents sur la figure 16B les conditions de recouvrement des donnees associees au 
calcul d'une donnee de signature numerique par celles d'un extrait de fichier. Sur la figure 

10 16B, la reference EXT designe un extrait de donnees qui satisfait la condition de recouvrement 
du groupe de donnees utilise pour determiner la donnee de signature numerique d'adresse 
(n/k). La reference Gl designe le groupe de donnees utilise pour determiner la donnee de 
signature numerique d'adresse (n/k). La reference G2 designe le groupe de donnees utilise 
pour determiner les donnees de signature numerique d'adresses respectives (n/k)-l et (n/k). La 

15 reference ADSN designe les adresses des donnees de signature numerique. On rappelle que 
rentier n est un multiple du rapport d'index k. 

On observe que les conditions de recouvrement dependent de la phase de Padresse de debut de 
l'extrait de donnees qui sera recherche. Dans le cas le plus favorable, l'adresse de debut de 
l'extrait coincide avec l'adresse de la premiere donnee d'un groupe de donnees utilise pour le 

20 calcul d'une donnee de signature numerique. Dans ce cas, Fadresse de debut de l'extrait est 
n-Il (avec n multiple de k) et la taille minimale de Fextrait pour recouvrement est II +12 + k. 
Dans le cas le moins favorable, l'adresse de debut de l'extrait coincide avec l'adresse +1 de la 
premiere donnee d'un groupe de donnees utilise pour le calcul d'une donnee de signature 
numerique. Dans ce cas, l'adresse de debut de l'extrait est n-Il-(k-l) (avec n multiple de k) et 

25 la taille minimale de l'extrait pour recouvrement vaut II + 12 + k + (k-1). 

Dans tous les cas, la condition de recouvrement d'un groupe de donnees utilise pour le calcul 
d'une seule donnee de signature numerique est satisfaite si la taille de l'extrait a trouver est 
superieure ou egale a (II + 12 + 2k -1). Reciproquement, si la taille d'extrait a trouver est egale 
a (II + 12 + 2k -1), l'extrait recouvre bien un groupe de donnees utilise pour le calcul d'une 

30 donnee unique de signature numerique. 

On peut etendre le raisonnement au cas du recouvrement d'un groupe de donnees utilise pour 
le calcul d'un extrait de donnees de signatures nurneriques de taille TES. Dans le cas le plus 
favorable, l'adresse de debut de Fextrait coincide avec Fadresse de la premiere donnee d'un 
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groupe de donnees utilise pour le calcul de TES donnees consecutives de signature numerique. 
Si l'adresse de debut de l'extrait vaut n - II (avec n multiple de k), la taille minimale de 
l'extrait pour recouvrement vaut II + 12 + k.TES. 

Dans le cas le moins favorable ou Padresse de debut de l'extrait coincide avec l'adresse +1 de 
5 la premiere donnee d'un groupe de donnees utilise pour le calcul de TES donnees de signature 
numerique, l'adresse de debut de l'extrait vaut n - II - (k-1) (avec n multiple de k) et la taille 
minimale de l'extrait pour recouvrement = II + 12 + k.TES + (k-1). 

Dans tous les cas, la condition de recouvrement d'un groupe de donnees utilise pour le calcul 

de TES donnees consecutives de signature numerique est satisfaite si la taille de l'extrait a 
10 trouver est superieure ou egale a (II + 12 + k(TES+l) -1). 

A partir des formules precedentes, on applique un raisonnement inverse pour determiner les 

valeurs de rapport d' index k qui peuvent etre utilisees pour rechercher un extrait commun de 

fichiers de taille TEF. On doit satisfaire aux relations suivantes : 

TEF > II +12 + k(TES + 1) -1 , et 
15 TES > 1 (qui est simplement la taille minimum d'extrait commun de signatures numeriques) 

La valeur minimale pour k est kmin = 2, sinon il n'y a bien sur aucune amelioration a attendre 

sur la vitesse de recherche. 

On en deduit enfin la valeur de taille minimale utilisable pour TEF 

TEF mini = II + 12 + 2(TES + 1) -1 
20 On notera que pour TES == 1 , TEF mini = 11+12 + 3 

La valeur maximale pour k s'obtient a rebours en prenant TES = 1, alors : 

kmax = partie entiere de [(TEF - II - 12 + 1) / 2] 
Pour toute valeur de k comprise entre kmin et kmax, on deduit la taille de l'extrait commun de 
signature TES qui conditionnera la detection d'un extrait commun possible aux fichiers de 
25 taille TEF: 

TES < partie entiere de [(TEF - II - 12 + 1) / k] -1 
Les formules peuvent etre adaptees au cas particulier des filtres numeriques « par defaut » 
ajustes pour un rapport d'index k, comme on l'a vu precedemment. II suffit alors de remplacer 
II par (intervref x k)/2 et 12 par II -1. On obtient la relation suivante entre TEF, TES, k et 
30 intervref : 

TEF >k(intervref + TES + 1) - 2 
La valeur de taille minimale utilisable pour TEF est obtenue pour k = 2 et TES = 1 et Ton 
deduit TEF mini = 2. intervref + 2 
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Pour TEF fixe, on deduit la plage de valeurs licites pour le rapport d'index k: 

kmin = 2 < k < kmax = partie entiere[(TEF + 2) / (intervref + 2)] 
Pour toute valeur de k comprise entre kmin et kmax, on deduit la taille de 1' extrait commun de 
signature TES qui conditionnera la detection d'un extrait commun possible aux fichiers de 
taille TEF: 

TES < partie entiere de [(TEF 4- 2) / k] - (intervref + 1) 
Ainsi, la detection d'un extrait commun de fichiers de taille TEF peut etre obtenue par 
comparaison de signatures numeriques en utilisant differentes valeurs de rapport d'index k. 
Pour une valeur determinee TEF, on deduit une plage de valeurs utilisables pour k : de kmin a 
kmax. Pour chaque valeur utilisable de k, on determine ensuite une valeur TES de taille 
maximale d' extrait commun de signatures numeriques qui garantisse la detection d'un extrait 
commun de fichiers de taille TEF. 

On va maintenant examiner comment choisir la valeur de k (dans la plage licite kmin, kmax) 
pour avoir la vitesse de recherche la plus rapide. 

Comme indique precedemment, pour 1' application a un moteur de recherche plein texte, la 
recherche se fait en deux passes : 

la recherche d'extraits communs de signatures numeriques de taille superieure ou egale a 

TES, et 

- pour chaque extrait commun de signatures numeriques trouve, la recherche ciblee 
d'extraits communs de fichiers de taille TEF parmi le jeu de couples de positions de debut 
d'extraits de fichiers en relation avec le couple de positions de debut de 1' extrait commun 
de signatures numeriques. 

Pour 1'evaluation du nombre d'operations de comparaison a effectuer pour les deux passes de 
recherche, on retient dans une premiere approche les hypotheses simplificatrices suivantes : 
les probabilites de tirage des donnees de fichiers sont independantes ; 

- par ailleurs, les probabilites de tirage des donnees de signatures numeriques sont 
independantes. 

La probability de tirage d'un extrait commun de fichiers de taille 1 est notee PF. La probability 
de tirage d'un extrait commun de fichiers de taille 2 est notee PF2. Enfin, la probability de 
tirage d'un extrait commun de fichiers de taille TEF est PFTEF. 

Ensuite, la probability de tirage d'un extrait commun de signatures numeriques de taille 1 est 
notee PS. La probability de tirage d'un extrait commun de signatures numeriques de taille 2 est 
PS2. La probability de tirage d'un extrait de taille TES est PSTES. 
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On adopte par ailleurs les notations suivantes : 

TF1: Taille du premier fichier a comparer 
TF2: Taille du second fichier a comparer avec le premier fichier 
TS1: Taille de la signature numerique associee au premier fichier 
TS2: Taille de la signature numerique associee au second fichier 
On evalue d'abord le nombre Totall de comparisons a effectuer pour la premiere etape de 
recherche « grossiere » d'extraits communs de signatures numeriques de taille superieure ou 
egale a TES. Le nombre de couples possibles de positions de debut d'extrait commun de 
signatures numeriques est egal a TS1 x TS2. Pour une valeur de rapport d'index k, les tailles 
TS1 et TS2 sededuisent des tailles TF1 et TF2 par les relations : 

TS1 =TF1 /ketTS2 = TF2/k 
Pour chaque couple possible de positions de debut d'extrait commun de signatures 
numeriques, on compare des premieres donnees d'extrait. En cas de correlation, la 
comparaison se poursuit avec les deuxiemes donnees d'extrait, et ainsi de suite jusqu'a 
atteindre la taille d'extrait demandee TES. 

Pour chaque test, le nombre moyen d'operations de comparaison s'obtient a partir de la 

probability de tirage PS, avec : 

Pour le test des premieres donnees d'extrait : 1 operation, 
Pour le test des deuxiemes donnees d'extrait : PS operations, 
Pour le test des TESiemes donnees d'extrait: PS 11 **- 1 operations. 

Au total, on obtient done 1 + PS + .... + PS 1 ^ 1 , soit (1 - PS™) / (1 - PS) operations. La 

valeur de Totall s'en deduit par multiplication par (TS1 x TS2), soit : 

Totall - (TF1 x TF2) x (1 - PS ras ) / (k 2 x (1 - PS)) 

On evalue maintenant le nombre Total2 de comparisons a effectuer pour la seconde etape de 
recherche « ciblee » d'extraits communs de fichiers de taille TEF paxmi le jeu de couples de 
positions de debut d'extraits de fichiers en relation avec les extraits communs de signatures 
numeriques trouves a la precedente etape de recherche grossiere. Pour un extrait commun de 
signatures numeriques repere par un couple d'adresses de debut (nl, n2), les adresses de debut 
a tester sur le premier fichier sont comprises entre (k.nl +I2+k.TES - TEF) et (k.nl - II), soit 
au total, Na = (TEF -11-12- k.TES + 1) adresses possibles (figures 16A et 16B). 
La valeur de TEF peut etre par ailleurs encadree par la relation suivante quand on utilise la 
plus grande valeur possible pour k : 

Il+I2 + k(TES+l)-l < TEF<Il+I2 + k(TES + 2)-l 
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On en deduit que k <Na < 2k. 

Le meme raisonnement s'applique aux adresses de debut a tester sur le deuxieme fichier en 
substituant n2 a nl . 

II y a done au total Na 2 couples de positions de debut d'extraits commons de fichiers a evaluer. 
5 Le nombre moyen de comparisons a effectuer pour rechercher un extrait commun de fichiers 
de taille TEF s'obtient a partir de la probabilite de tirage PS mais en appliquant un 
raisonnement analogue a celui de l'etape de recherche grossiere : 

Na 2 x(l -PF^/Cl-PF) 
Le nombre moyen d'extraits communs de signatures numeriques trouves a la premiere etape 
10 s'obtient a partir de la probabilite de tirage PS et des tailles des signatures TS1 et TS2 : 
TSlxTS2xPS TES 

On remplace TS1 par TFl/k etTS2 par TF2/k et on obtient fmalement Total2 par produit des 
dernieres expressions: 

Total2 = (TF1 x TF2) x (Na 2 /!* 2 ) x PS TCS x (1 - PF TCF ) / (1 - PF) 
15 On a deja montre que 1 < Na/k < 2. On en deduit les relations suivantes: 

Total2 > (TF1 x TF2) x PS™ x (1 - PF 71 *) / (1 - PF) et 

Total2 < 4x(TFl x TF2) x PS 1 * 8 x (1 - PF™*) / (1 - PF) 
On indique que le signe « x » signifie ici « multiplie par ». 

Enfin, revaluation du nombre Total3 d'operations de comparaison a effectuer pour les deux 
20 passes de recherche s'obtient par simple addition de Totall et de Total2, soit : 
Total3 = (TF1 x TF2) x (1 - PS 11 *) / (k 2 x (1 - PS)) 

+ (TF1 x TF2) x (Na/k) 2 x PS TCS x (1 - PF TEF ) / (1 - PF) 
Pour les grandes valeurs de TEF et TES, la relation peut etre approchee par : 

Total3 = (TF1 x TF2) x [ (1 / (k 2 x (1 - PS))) + ((Na/k) 2 x PS TCS / (1 - PF)) ] 
25 Le nombre total de comparisons a effectuer avec l'algorithme de recherche de reference est 
proche de TF1 xTF2. Le rapport entire ce dernier nombre et Total3 donne une estimation du 
gain de vitesse de recherche obtenu par utilisation de l'algorithme au sens de P invention : 

Gain = 1/ [ (1 / (k 2 x (1 - PS))) + ((Na/k) 2 x PS™ 8 / (1 - PF)) ] 
Quand le second terme de la somme est inferieur au terme en 1/k 2 , on notera que 1'on obtient 
30 un gain superieur a k?/2(l - PS). 

On indique incidemment que, toutefois, pour obtenir le gain effectif de vitesse de recherche, il 
faut aussi deduire les temps propres au calcul des signatures numeriques. 
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Comrae on le verra en reference a la figure 17, l'etude des variations de la fonction Total3 en 
fonction du rapport d 5 index k montre que : 

le premier terme de la somme en 1/k 2 decroit tres rapidement quand k augmente, 
- le deuxieme terme de la somme en PS 755500 , croit quand k augmente, car la valeur de 

5 TES(k) decroit quand k augmente. 

On rappelle que dans le cas general, TES = partie entiere de [(TEF - II - 12 + 1) / k] -1 
Dans le cas des filtres numeriques a valeur moyenne optimises, 

TES = partie entiere de [(TEF + 2) / k] - (intervref + 1) 
II apparait que la valeur de k a utiliser pour obtenir la valeur minimum de cette fonction ne 

10 peut pas etre determinee par une relation mathematique simple. Toutefois, comme le jeu des 
valeurs possibles de k est reduit, on determine la valeur optimale de k de maniere empirique. 
Pour chaque valeur possible de k (entre kmin et kmax), on calcule la valeur de TotaB en 
fonction de k et Ton retient la valeur de k qui produit la plus petite valeur de TotaB. 
Toutefois, revaluation du nombre d'operations de comparaison a effectuer est plus precise si 

15 Ton corrige aussi le modele utilise pour le calcul des probabilites de tirage d'extraits communs 
de signatures numeriques. En effet, les probabilites de tirage des donnees de signatures 
numeriques ne sont pas independantes entre elles, car il y a un recouvrement important entre la 
plage des donnees de fichier qui sont utilisees pour le calcul d'une donnee de signature 
numerique d'adresse (n/k) et celle des donnees de fichier qui sont utilisees pour le calcul de la 

20 donnee suivante de signature numerique d'adresse (n/k)+l . 

Dans le cas general d'un filtre numerique passe-bas a (II +12+1) coefficients, les etats flous 
pris par les donnees de signature numerique d'adresses (n/k) et ((n/k) + j) seront independants 
si il n'y a pas de recouvrement entre les plages de donnees de fichier qui sont utilisees pour 
leur determination. Cette condition est satisfaite si (n + 12 + k - 1) < (n + k.j - II - k + 1), 

25 soitsi: j>(Il+I2 + 2k-2)/k 

Dans le cas particulier des filtres numeriques par defaut ajustes pour un rapport d' index k, on 
substitue simplement (k x intervref -1) a (II + 12) dans l'equation precedents La condition 
d'independance est alors satisfaite si j > (intervref + 2) - 3/k, autrement dit, si l'ecart 
d'adresses entre les donnees de signatures numeriques vaut au moins (intervref +2). 

30 Pour tenir compte de la dependance des etats flous pris par des donnees consecutives de 
signature numerique, le modele de probabilites est modifie comme indique ci-apres. 
La probabilite de tirage d'un extrait commun de signatures numeriques de taille 1, independant 
est notee PSI. La probabilite de tirage d'un extrait commun de signatures numeriques de taille 
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2 est egale a la probabilite de tirage PSI d'un extrait de taille 1, multipliee par la probability de 
tirage conditionnelle PSD (D pour dependant) d'un autre extrait de taille 1 consecutif a un 
extrait prealablement trouve de taille 1. Cette probabilite de tirage devient alors PSI x PSD. La 
probabilite de tirage d'un extrait commun de signatures numeriques de taille 3 devient PSI x 
PSD 2 . Finalement, la probabilite de tirage d'un extrait de taille TES devient PSI x PSD (TESM) . 
On demontre la relation suivante entre PSI et PSD: psD (intervref+2) < PSI 

A partir de ce nouveau modele de probabilites, on reevalue les formules de calcul des nombres 
Total 1 etTotal2 : 

Totall = [(TF1 x TF2) / k 2 ] x [1 + (PSIx(l - PSD (TES - 1} ) / (1 - PSD))] 

Total2 = (TF1 x TF2) x (Na/k) 2 x PSI x PSD 0 ^ x (1 - PF TEF ) / (1 - PF) 
Pour des valeurs elevees de TEF et TES, les formules peuvent etre approchees comme suit : 

Totall = [(TF1 x TF2) / k 2 ] x [1 + (PSI / (1 - PSD))] 

Total2 = (TF1 x TF2) x (Na/k) 2 x PSI x PSD^* 0 / (1 - PF) 

Et Total3 = (TF1 x TF2) x [ (1 + (PSI / (1 - PSD)) / k 2 
+ ((Na/k) 2 x PSI x PSD^- 1 *) / (1 - PF) ] 
Dans une realisation preferee, les valeurs de PSI et PSD sont determinees a l'avance par 
analyse statistique des resultats de comparaisons entre signatures numeriques obtenues avec 
des fichiers de grande taille. A cet effet, un programme specifique d' analyse statistique 
etalonne les valeurs a utiliser pour PSI et PSD. 

Pour le jeu de 4 filtres numeriques par defaut (figure 15) ajustes pour un rapport d'index k, les 
valeurs relevees pour PSI et PSD varient peu en fonction de k. La realisation utilise les valeurs 
arrondies suivantes: PSI = 0,4 et PSD = 0,6 

On a represente sur la figure 17 les variations de Totall, Total2 et Total3 en fonction de k avec 
le jeu de filtres numeriques par defaut et pour une valeur de taille minimale d'extraits 
communs de fichiers a trouver egale a 1000 et des tailles de fichiers a comparer de 
lOOkilooctets. 

On decrit maintenant Pamelioration de la selectivity de la recherche d'extraits communs de 

signatures numeriques, toujours pour un moteur de recherche plein texte. 

Dans le cas simple ou les donnees de signatures numeriques ne porteraient chacune qu'un seul 

etat de logique flou, on peut deduire des probabilites de tirage des etats « 0 », « 1 » et « ? » la 

probabilite PSI de detection d'un extrait commun de signatures numeriques de taille 1. 

On note P0 la probabilite de tirage de l'etat 0, PI celle de l'etat 1 et P? celle de l'etat ?. 
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Pour un couple donne de positions de debut d'extraits de signatures numeriques a evaluer, les 
conditions de detection d'un extrait commun de signatures numeriques de taille 1 sont les 
suivantes: 

- si l'etat de la donnee de signature numerique associee au premier fichier vaut 0, il faut que 
l'etat de la donnee de signature numerique associee au second fichier soit egal a 0 ou a ?, 
si l'etat de la donnee de signature numerique associee au premier fichier vauj 1, il faut que 
l'etat de la donnee de signature numerique associee au second fichier soit egal aloua?, 
si l'etat de la donnee de signature numerique associee au premier fichier vaut ?, l'etat de la 
donnee de signature numerique associee au second fichier peut prendre la valeur 
quelconque 0, 1 ou ? 

Pour un couple donne de positions de debut d'extraits de signatures numeriques a evaluer, les 
probabilites de detection d'un extrait commun de signatures numeriques de taille 1 se 
determinent comme suit pour chaque situation precedemment presentee : 

l'etat de la donnee de signature numerique associee au premier fichier vaut 0 et l'etat de la 
donnee de signature numerique associee au second fichier vaut 0 ou ? (Probabilite = P0 x 
(P0 + P?) 

l'etat de la donnee de signature numerique associee au premier fichier vaut 1 et l'etat de la 
donnee de signature numerique associee au second fichier vaut 1 ou ? (Probabilite = PI x 
(PI +P?)) 

l'etat de la donnee de signature numerique associee au premier fichier vaut ? et l'etat de la 
donnee de signature numerique associee au second fichier prend une valeur quelconque 
(Probabilite = P?xl=P?) 

La probabilite de detection PSI s'obtient par addition des probabilites de chaque situation : 
PSI = P0 x (P0 -I- P?) + P 1 x (P1+ P?) + P? 

La formule de determination de PSI peut encore se simplifier en remplafant (P0 + P?) par (1 - 

PI), (PI + P?) par (1 - P0), et (P0 + P1 4- P?) pari, et : 

PSI = P0x(l -P1) + P1 x(l -P0) + P? = 1 -2xP0xPl 

La valeur maximale de PSI vaut 1. Elle est obtenue pour P0 = 0 ou PI = 0. Cette situation est a 

proscrire, car, dans ce cas, la recherche d'extraits communs de signatures numeriques n'a 

aucune selectivity. 

La valeur minimale de PSI vaut 1/2. Elle est obtenue pour P? = 0 et P0 = PI = 1/2. Cette 
situation est ideale et peut etre approchee si Ton utilise un filtre numerique ajuste par defaut 
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avec des valeurs elevees pour les parametres intervref et interv, comme on Pa vu 
precedemment. 

Pour les filtres numeriques a valeur moyenne, la valeur de PSI est obtenue de maniere 
statistique par 1' analyse de la comparaison entre elles de signatures numeriques de grande 
5 taille. On a montre que 1' application d'un filtre ideal de coupure Fe/2(k-l) se traduit par des 
probabilites PO = PI = 1/4 et P? == 1/2. II en resulte que PSI= 7/8 

On utilise done des filtres numeriques plus selectifs de sorte que PSI < 7/8, dans une 
realisation preferentielle. 

Dans le cas general ou les donnees de signatures numeriques portent chacune 4 etats de 
10 logique floue (etat supplementaire « X » (interdit)), on evalue a partir des resultats precedents 
la probabilite PSI de detection d'un extrait commun de signatures numeriques de taille 1. On 
note PSI1, la probabilite de detection d'un extrait commun de signatures numeriques de taille 1 
en ne s'appuyant que sur une comparaison des etats pris par la premiere loi de determination 
d' etats flous. On note PS2, PS3 et PS4, les probabilites de detection analogues associees aux 
15 lois suivantes de determination d'etats flous (loi 1, loi 2, loi 3 et loi 4). Si les lois sont 
independantes entre elles, PSI = PSIlxPSI2xPSI3xPSI4. Dans la pratique, il y a une 
dependance entre les lois et la valeur de PSI obtenue par analyse statistique est superieure au 
produit precedent. 

Ainsi, la determination de chaque etat flou d'une signature numerique est effectuee par un 
20 calcul prealable d'un jeu de k etats binaires consecutifs. Dans le cas d'une recherche d'extraits 
communs de fichiers, on remarquera que la detection d'un extrait commun possible entre les 
fichiers sera toujours garantie si : 

chaque donnee de signature numerique d'adresse (nl/k) associee au premier fichier est 
determinee par comparaison entre eux de k etats binaires consecutifs d'adresses nl, nl+1, 
25 ...,nl4-k-l,et 

chaque donnee de signature numerique d'adresse (n2/k) associee au second fichier est 
determinee par simple recopie de l'etat binaire calcule pour d'adresse n2. 
On indique en effet que, dans une realisation preferee, on compare entre elles, en fait, une 
signature numerique portant des etats flous (0, 1 ou ?) (premier fichier) a une signature 
30 numerique ne portant que des etats binaires (0 ou 1) (second fichier). On montre ci-apres que 
Ton ameliore ainsi la selectivity de la recherche, car on diminue simplement les probabilites de 
detection d'extraits communs aux signatures numeriques. 
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Pour un couple donne de positions de debut d'extraits de signatures numeriques a evaluer, les 
conditions de detection d'un extrait commun de signatures numeriques de taille 1 sont les 
suivantes : 

si Tetat de la donnee de signature numerique associee au premier fichier vaut 0 3 il faut que 

Tetat de la donnee de signature numerique associee au second fichier soit egal a 0, 

si Tetat de la donnee de signature numerique associee au premier fichier vaut 1, il faut que 

Tetat de la donnee de signature numerique associee au second fichier soit egal a l s 

si Tetat de la donnee de signature numerique associee au premier fichier vaut ?, Tetat de la 

donnee de signature numerique associee au second fichier prend une valeur quelconque 0 

ou 1. 

On prend pour notation P0' et PI' les probability de tirage des etats binaires portes par les 
donnees de signature numerique associees au deuxieme fichier. On a les relations suivantes: 
PO'+Pl'-l 

P0 <P0' < PO + P? 
PI < PP < Pl+P? 

Pour un couple donne de positions de debut d'extraits de signatures numeriques a evaluer, les 
probabilites de detection d'un extrait commun de signatures numeriques de taille 1 se 
determinent alors comme suit pour chaque situation precedemment presentee: 

Tetat de la donnee de signature numerique associee au premier fichier vaut 0 et Tetat de la 
donnee de signature numerique associee au second fichier vaut 0 (Probability = P0 x P0') 5 
Tetat de la donnee de signature numerique associee au premier fichier vaut 1 et Tetat de la 
donnee de signature numerique associee au second fichier vaut 1 (Probability = PI x PI*), 
Tetat de la donnee de signature numerique associee au premier fichier vaut ? et Tetat de la 
donnee de signature numerique associee au second fichier prend n'importe quelle valeur 
(Probability = P?xl= P?). 
La probability de detection PSF s'obtient par addition des probabilites de chaque situation : 
PST = POxPO' + PlxPl' + P? 

< P0x(P0 + P?) + Plx(Pl + P?) + P? 

< PSI 

La relation PSI ' < PSI implique done une amelioration de la selectivity de la recherche en 
procedant a la comparaison entre une signature portant des etats flous et une signature ne 
portant que des etats binaires. 
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On remarquera que pour un extrait commun de signatures numeriques repere par un couple 
d'adresses de debut (nl, n2) 5 les adresses de debut a tester sur les fichiers doivent tenir compte 
de l'utilisation d'une signature numerique binaire pour la recherche. Dans le cas ou la 
signature numerique floue est calculee a partir du premier fichier, les adresses de debut a tester 
5 sont comprises entre (kxnl +12 + kxTES - TEF) et (kxnl - II), soit au total: 

Naf = (TEF - II - 12 - kxTES + 1) adresses possibles. 
Dans le cas ou la signature numerique binaire est calculee a partir du deuxieme fichier, les 
adresses de debut a tester sont comprises entre : 
(kxn2 + 12 + kx(TES - 1) - (TEF - 1)) et (kxn2 - II), 
10 soit au total: 

Nab = (TEF - II - 12 - kx(TES - 1)) adresses possibles. 
Pour un filtre num6rique par defaut avec parametre intervref, on obtient : 
Naf = TEF - kxintervref - kxTES + 2 
Nab = TEF - kxintervref - kx(TES - 1) + 1 

15 

On decrit ci-apres un etalonnage des lois de probabilites associees aux filtres numeriques. On a 
releve sur le tableau ci-apres les probabilites PSI et PSD de filtres numeriques a valeur 
moyenne obtenus par la comparaison de deux fichiers texte de grande taille (300 kilooctets). 

20 



Variations de PSI et PSD en fonction de interv pour k=30 et intervref=14 


interv 


1 


2 


3 


4 


5 


6 


7 


Cumul2357 


Produit2357 


PSI 




0,773486 


0,736862 


0,721675 


0,71152 


0,707414 


0,709985 


0,430022 


0,28792163 


PSD 




0,791133 


0,785281 


0,788749 


0,78712 


0,782896 


0,784331 


0,561866 


0,38354132 


Variations de PSI et PSD en fonction de interv pour k=23 et intervref=30 


interv 


1 


2 


3 


4 


5 


6 


7 


Cumul2357 


Produit2357 


PSI 




0,750849 


0,711247 


0,68624 


0,67309 


0,660956 


0,652175 


0,394079 


0,23442846 


PSD 




0,77943 


0,781081 


0,784095 


0,79249 


0,792396 


0,796662 


0,593634 


0,38436208 


Variations de PSI et PSD en fonction de interv pour k=30 et intervref=30 


Interv 


1 


2 


3 


4 


5 


6 


7 


CumuI2357 


Produit2357 


PSI 




0,759058 


0,714971 


0,690597 


0,67417 


0,660454 


0,653617 


0,400642 


0,23914252 


PSD 




0,787054 


0,784398 


0,788614 


0,79325 


0,794868 


0,799158 


0,604817 


0,39136461 


Variations de PSI et PSD en fonction de k pour cumul2357 et intervref=14 


k 


2 


5 


10 


20 


50 


100 


200 


372 


5880 


PSI 




0,325587 


0,382557 


0,412087 


0,44424 


0,443922 


0,428286 


0,42322 


0,413466 


PSD 




0,473232 


0,528938 


0,546894 | 


0,57964 


0,590101 


0,581612 | 


0,583971 , 


0,627414 
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On constate que : 

PSI est toujours inferieur a PSD, 

pour k fixe, PSI decroit legerement quand interv augmente et PSD reste pratiquement 
constant, 

5 - pour k fixe, PSI decroit legerement quand intervref augmente. 

Les probabilites relevees pour le cumul de 4 filtres (interv = 2, 3, 5 et 7) sont superieures au 
produit des probabilites relevees pour individuellement pour chaque filtre. On comprendra 
done qu'il y a dependance entre elles des probabilites associees a chaque loi. 
Pour s'approcher au mieux d'une situation d'independance des probabilites, on peut envisager 
10 de proceder comme suit pour adapter la realisation des fonctions de calcul des signatures 
numeriques : 

pour la loi 1, on determine des valeurs prises par les echantillons f n par utilisation d'une loi 
de codage d'entiers sur les 8 bits de chaque donnee, 

pour la loi 2, on determine ces valeurs mais apres rotation des 8 bits par decalage de 2 bits, 

15 - pour la loi 3, on determine ces valeurs mais apres rotation des 8 bits par decalage de 4 bits, 
pour la loi 4, on determine ces valeurs mais apres rotation des 8 bits par decalage de 6 bits, 
on utilise pour chaque loi un meme couple de parametres pour le filtre numerique a valeur 
moyenne, par exemple interv = 4 et intervref =10. 
Pour les valeurs elevees de TEF (et TES), le modele mathematique d'estimation des nombres 

20 d' operations de comparaison a effectuer pour la recherche donne de bons resultats sur la 
determination automatique de valeur optimale de rapport d'index a utiliser. 
Pour les valeurs faibles de TEF (et TES), le modele mathematique d 5 estimation ne donne pas 
de bons resultats, car les traitements de recherche ne sont plus majoritairement alloues a des 
operations de comparaison. 

25 Pour chaque extrait commun de signatures numeriques trouve, un programme declenche 
l'appel d'une fonction de recherche ciblee d'extrait commun de fichier sur une plage restreinte 
de couples d'adresses de debut sur les fichiers. A chaque appel, la fonction precede a un 
certain nombre de tests de validite des parametres d'appel et d'initialisation de variables 
locales. A chaque appel, cette fonction effectue une operation de lecture sur chaque fichier des 

30 donnees a comparer dont la vitesse depend des performances du disque dur et du bus de 
l'ordinateur. Pour tenir compte de l'impact de ces temps de traitement supplementaires, on 
utilise un modele mathematique encore corrige qui ajoute, a Tetape de recherche ciblee 
d'extraits communs de fichier, des nombres d'operations de comparaison representatifs des 
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temps d'appel de la fonction de recherche ciblee et des temps de lecture des donnees a 
comparer. Typiquement, le nombre ajoute a Total2 est de la forme : 
[((TF1 x TF2) / k 2 ) x PSI x PSD (TES - 1} ] x [A + Bxk] , 

ou 

5 A est une constante representative des temps d'appel de la fonction de recherche 

ciblee, et 

B est constante representative des temps de lecture des donnees sur disque dur. 
Les valeurs des parametres A et B dependent des caracteristiques de l'ordinateur utilise pour 
P execution du programme et sont determinees de maniere empirique. 
10 On decrit ci-apres des resultats devaluation des performances avec comme ordinateur utilise 
pour revaluation un processeur Pentium III a 1GHz, 128 Mo RAM, disque dur 20 Go (sous le 
systeme d'exploitation Windows 98®). 

Les performances ont ete relevees avec P execution d'un programme informatique de recherche 
plein texte developpe specifiquement en langage C++. Le programme propose au choix 

15 d'utiliser un algorithme « classique » ou un algorithme au sens de Pinvention pour effectuer 
une recherche d'extraits communs a deux fichiers. Les temps d'execution de Palgorithme au 
sens de Pinvention integrent egalement ceux de calcul des signatures numeriques. 
Afin d'eviter de fausser les mesures de performance, une attention particuliere doit etre portee 
sur le choix des fichiers utilises pour effectuer les recherches. En effet, il s'est avere au cours 

20 de tests que les fichiers de donnees associes a des logiciels courants tels que Word®, Excel®, 
PowerPoint®, ou autres ont des formats de stockage qui conduisent a Pexistence de 
nombreuses plages de donnees consecutives initialisees a la meme valeur 0 (0x00). Comme la 
taille de ces plages est de Pordre de plusieurs centaines de donnees, le modele de probability 
utilise pour la realisation du programme de recherche prototype est fausse. Des adaptations de 

25 ce modele doivent etre etudiee au cas par cas, comme par exemple la non prise en compte dans 
la fonction de recherche ciblee du couple valeurs de donnees (0,0) comme position de debut 
d'extrait commun. 

Le choix de type de fichier texte s'est porte plutot sur des documents texte de grande taille au 
format HTML. La vitesse de recherche est exprimee en million d' operations de comparaison 
30 par secondes (Mega ops/sec). Le premier fichier est de taille: 213275 octets et le second 
fichier de taille : 145041 octets. Le tableau ci-apres montre les resultats obtenus. 
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Taille minimale des extraits 
a trouver 


100 


150 


200 


250 


Algorithme classique 


Vitesse moyenne de recherche 


46,5 


46,5 


46,5 


46,5 


Temps de recherche 


11m03.99s 


11m03.99s 


11m03.99s ! 


1 1 m03.99s 


Algorithme de I'invention 


Vitesse moyenne de recherche 


116,50 


205,18 


299,05 


391,07 


Temps de recherche 


04m25,180s 


02m30,500s 


01m43,200s 


01m18,870s 


Facteur de gain 


2,51 


4,41 


6,43 


8,41 




Taille minimale des extraits 
a trouver 


500 


750 


1000 


1500 


Algorithme classique 


Vitesse moyenne de recherche 


46,5 


46,5 


46.5 


46,5 


Temps de recherche 


11m03.99s 


11m03.99s 


11m03.99s 


1 1 m03.99s 


Algorithme de I'invention 


Vitesse moyenne de recherche 


1305,38 


3051,29 


4931,66 


9711,95 


Temps de recherche 


0m23,560s 


0m1 0,050s 


0m06,200s 


0m03,130s 


Facteur de gain 


28,07 


65,62 


106,06 . 


208,86 




Taille minimale des extraits 
a trouver 


2000 


2500 


5000 


7500 


Algorithme classique 


Vitesse moyenne de recherche 


46,5 


46,5 


46,5 


46,5 


Temps de recherche 


11m03.99s 


11m03.99s 


11m03.99s 


1 1 m03.99s 


Algorithme de I'invention 


Vitesse moyenne de recherche 


15740,09 


21929,98 


58334,07 


101080,35 


Temps de recherche 


0m01 ,920s 


0m01 ,370s 


0m00,500s 


0m00,280s 


Facteur de gain 


338,50 


471,61 


1254,50 


2173,77 



5 On decrit maintenant d'autres applications de recherche d'extraits communs probables. Dans 
certains domaines d' application, les criteres de detection d'extraits communs de fichiers 
different de l'identite parfaite des extraits a trouver. C'est notamment le cas de fichiers de 
donnees representatifs de la numerisation d'un signal, tels que par exemple des fichiers audio 
(avec une extension .wav par exemple). 
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On sait que la valeur des echantillons obtenus dependra de la phase de 1'horloge 
d'echantillonnage. On sait par ailleurs que le dispositif de numerisation introduit d'autres 
erreurs sur les valeurs des echantillons (bruit, gigue d'horloge, dynamique, ou autre). 
Pour ces applications, le principe de l'algorithme de recherche au sens de P invention peut etre 
adapte pour se bonier a la seule etape de recherche grossiere entre fichiers. On peut done 
resumer les etapes prevues comme suit : 

calcul d'une signature numerique par fichier a comparer, 
- et comparaison des signatures numeriques a la recherche d'extraits communs de signatures 

numeriques. 

On va montrer dans ce qui suit comment on peut se defmir un critere de detection d'extrait 
commun a l'aide de probabilites. 

On a montre precedemment, dans le cadre de 1' optimisation de la valeur du rapport 
d'index, que le nombre d'operations de comparaison pour effectuer la recherche entre 
signatures numeriques est estime a : 

Totall - [(TF1 x TF2) / k 2 ] x [1 + (PSIx(l - PSD^ 8 ^) / (1 - PSD))] 
On a egalement montre que la probability de tirage d'un extrait commun de signatures 
numeriques vaut 

Le nombre probable d'extraits communs de taille minimale TEF qui sera trouve par la 
comparaison entre eux de deux fichiers de tailles respectives TF1 et TF2 devient done: 

N = [ (TFlxTF2) / k 2 ] x PSIxPSD^ 0 , avec 

TES = partie entiere de [(TEF - II - 12 + 1) / k] -1 
L' optimisation de la valeur de k depend du compromis entre la vitesse de recherche 
(inversement proportionnelle a Totall) qui croit quand k augmente (on a done interet a utiliser 
des valeurs elevees pour k) et le nombre N qui croit quand k augmente (on doit done baisser la 
valeur de k si l'on veut limiter le nombre d'extraits communs probables detectes). 
L'optimisation de la valeur de k est faite en se fixant a l'avance une valeur cible Nc pour N et 
une valeur de taille minimale d'extrait a trouver TEF. A partir de ces parametres, on evalue la 
valeur de N pour toutes les valeurs autorisees de k et on retient la valeur de k qui permet 
d'approcher au mieux la valeur Nc. 

Cette methode de recherche introduit une imprecision sur les positions de debut des extraits 
"communs probables trouves. Dans le cas d'une recherche d'extraits communs entre une 
signature floue et une signature binaire (correspondant a un mode de realisation prefere), 
l'imprecision sur la position de debut de l'extrait commun probable de fichiers est de l'ordre 



WO 2005/101292 



PCT/FR2005/000673 



51 

de 4-k ou -k sur le fichier associe a la signature floue, et de l'ordre de +k ou -2k sur le fichier 
associe a la signature binaire. 

La probability effective de detection d'un extrait commun de signatures numeriques peut etre 
approchee par une analyse des variations prises par les etats de V extrait sur la signature floue. 
5 Avantageusement, la realisation preferee evalue une probabilite plafond en detectant le nombre 
transitions intervenant entre donnees a l'etat 0 et a l'etat 1, ce qui permet de filtrer du resultat 
de recherche les extraits communs dont la probabilite mesuree est superieure a un seuil 
predefini, et ainsi d'eviter de mettre en defaut le modele de probabilite statistique 
(PSIxPSD (TES " 1} ) utilise pour optimiser les parametre de recherche. 

10 

Dans le cas des fichiers audio, la recherche d'extraits audio communs a deux fichiers 
d ! enregistrement se resume done comme suit. On commence par un calcul prealable de 
signatures numeriques associees a chaque fichier. A Tissue de cette premiere etape, on peut 
assimiler un fichier de signature numerique comme etant une succession d'etats logiques qui 

15 caracterisent des plages horaires consecutives de duree fixe du signal audio. Typiquement, si 
Ton choisit une duree de plage horaire d'une seconde pour chaque donnee de signature 
numerique, le traitement d'un fichier audio d'une heure se traduit par la creation d'un fichier de 
signatures numeriques de 3600 donnees (une par seconde). La premiere donnees de signature 
caracterise la premiere seconde d'enregistrement, la deuxieme donnee la deuxieme seconde, et 

20 ainsi de suite. 

La recherche d'extraits audio communs s ! effectue ensuite en comparant entre elles les donnees 
de signatures numeriques qui ont ete calculees a partir de chaque enregistrement audio. Tout 
extrait commun est caracterise par un couple de groupes de N donnees consecutives de 
25 signatures numeriques (le premier groupe de donnees de signatures etant associe au premier 
fichier audio et le deuxieme groupe etant associe au deuxieme fichier audio) et pour lesquels il 
y a une compatibility entre les N etats de logique flou consecutifs du premier groupe avec les 
N etats de logique flou consecutifs de deuxieme groupe. 

30 L'adresse de la premiere donnee de signature numerique du premier groupe Gl permet de 
reperer la position horaire de debut d'extrait commun dans le premier fichier audio. L'adresse 
de la premiere donnee de signature numerique du deuxieme groupe G2 permet de reperer la 
position horaire de debut d'extrait commun dans le second fichier audio. Le nombre N (de 



WO 2005/101292 



PCT/FR2005/000673 



52 

donnees consecutives trouvees en relation) permet de deduire la duree de Textrait trouve par 
simple multiplication avec la duree des plages horaires associees a chaque donnee de signature 
numerique. 

5 Par exemple, dans l'hypothese ou Ton aurait calcule des signatures numeriques sur un premier 
fichier audio 1 d'une heure et sur un second fichier audio2 d'une heure en se fixant une duree de 
plage horaire de 1 seconde par donnee de signature numerique, dans le cas ou le resultat de la 
recherche donnerait un extrait commun de signatures numeriques de 20 donnees consecutives 
repere par Fadresse 100 sur la signature 1 et par l'adresse 620 sur la signature 2, ce resultat de 
10 recherche se traduirait par un extrait commun audio d'une duree de 20 secondes repere par un 
horaire de debut de 1 minute 40 secondes sur le fichier audio 1 et par un horaire de debut de 10 
minutes 20 secondes sur le fichier audio2. 

Contrairement a la recherche d ! extraits a l'identique dans des fichiers texte, il n'y a pas d'autres 
15 etape dans le traitement qui permette de lever le doute sur 1'identification des extraits qui sont 
releves a Tetape de comparaison des signatures numeriques. L f algorithme mathematique qui est 
utilise pour le calcul des signatures numeriques garantit que si il existe un extrait commun 
entre les deux fichiers audio, un extrait commun sera alors detecte entre les signatures 
numeriques. Toutefois, la condition reciproque est fausse : il y a une possibility de detecter des 
20 extraits communs de signatures numeriques qui ne correspondent pas a des extraits communs 
audio. 

Afin de disposer d'un indice de confiance sur les resultats de recherche, le traitement utilise un 
modele de probability qui permet de calculer un taux d'erreur de fausses detections. Le modele 
25 consiste a calculer la probability de mise en correspondance d'un groupe de N donnees 
consecutives de signatures numeriques representatif d f un extrait audio avec un autre groupe de 
N donnees consecutives de signatures numeriques dont les valeurs sont aleatoires et 
representative d'un signal audio aleatoire. 

30 La probability P(N) de detection d'un extrait commun de N donnees de signatures numeriques 
s'exprime alors sous une forme P exp(N), P etant la probability de tirage d'un extrait commun 
de taille 1. Dans la pratique, et compte tenu de l'emploi simultane de plusieurs etats de logique 
flou, P est inferieure a 1/2 et on majore done P(N) par 1/2 exp(N). Sachant que Ton peut 
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approximer 2 10 par 10 3 , on deduit facilement la probabilite de fausse detection d'un extrait 
commun de N donnees: P(10) < 10" 3 , P(20) < 10" 6 , .... 

Pour evaluer le nombre probable de fausses detections qui sera associe a la comparaison de 
deux fichiers audio, il faut multiplier cette valeur P(N) par le nombre total de couples de 
positions de debut d'extraits de signatures numeriques qui est teste lors de l'etape de 
comparaison des signatures numeriques. Si Ton prend SI comme notation du nombre de 
donnees de signatures numeriques du fichier audio 1 et S2 pour le fichier audio2, le nombre 
probable de fausses detections devient P(N) x SI x S2. 

Comme indique plus haut, ce nombre est divise par 2 , chaque fois que Ton augmente de 1 la 
taille des extraits communs de signatures numeriques recherches (et divise par 1000 si Ton 
augmente la taille de 10). 

Pour affiner Palgorithme de detection d'extraits musicaux, on a ajuste la taille minimale 
d f extrait commun de signatures a 50 donnees ce qui garantit une probabilite de fausse detection 
inferieure a 10" 15 . Ce choix tient compte du caractere non aleatoire des signaux audio traites, 
qui dans le cas de la musique comportent de nombreuses plages repetitives (refrains, et autres). 
Cette taille peut bien sur etre adaptee au besoin d'autres applications, soit pour augmenter, soit 
pour diminuer le taux d'erreur acceptable. 

A partir cette taille minimale d'extrait, le programme determine a rebours la duree minimale 
des extraits a rechercher en fonction de la valeur de duree associee a chaque donnee de 
signature (rinverse de la frequence des donnees de signatures). 

Pour une frequence de signature numerique de 25 Hz (25 donnees par secondes), le 
programme permet de rechercher des extraits audio d'une duree minimale de 2 secondes (50 x 
l/25s). Pour une frequence de signature numerique de 5 Hz (5 donnees par secondes), le 
programme permet de rechercher des extraits audio d'une duree minimale de 10 secondes (50 x 
l/5s). Pour une frequence de signature numerique de 1 Hz (1 donnee par secondes), le 
programme permet de rechercher des extraits audio d'une duree minimale de 50 secondes. 
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Dans la pratique, c ! est l'application qui fixe la valeur seuil de duree minimale d'extrait audio a 
rechercher. Pour des applications de piges publicitaires, le besoin est de detecter des extraits de 
spots de television ou de radio de l'ordre de 5 s. Pour des applications de reconnaissance de 
titres musicaux, le besoin est de detecter des extraits de Tordre 15 s. Pour des applications de 
5 reconnaissance de programmes de television (films, series, etc), le besoin est de detecter des 
extraits de Tordre de la minute. 

On indique en outre que dans T application a des fichiers audio, video, ou autres, ou les premier 
et second fichiers sont des fichiers d'echantillons de signaux numerises, le procede au sens de 
10 1'invention comporte avantageusement une etape de pre-traitement des donnees, par exemple 
par filtrage en sous-bandes, et une prise en compte des donnees associees a des portions de 
signal de niveau superieur a une reference de bruit, pour limiter des effets d'egalisations 
differentes entre les premier et second fichiers. 

15 En outre, le procede prevoit avantageusement une etape de consolidation des resultats de 
recherche, preferentiellement par ajustement de tailles relatives des paquets des premier et 
second fichiers, de maniere a tolerer un ecart en vitesses de restitution respectives des premier 
- et second fichiers. 

20 Enfin, on indique que Tun au moins des premier et second fichiers peut etre, dans cette 
application, un flux de donnees, et le procede de recherche d f extraits communs est alors 
execute en temps reel. 

Un programme specifique, ecrit en langage CH-f , a ete developpe pour effectuer la recherche 
d'extraits communs avec des micro-ordinateurs equipes d'un systeme d 9 exploitation Windows 
25 32bits. II propose de selectionner deux fichiers a comparer, de definir la taille minimale des 
extraits communs a y trouver, puis de lancer la recherche. 

Des le lancement de la recherche, le programme affiche avantageusement une fenetre de suivi 
d'execution. Cette fenetre indique le temps ecoule depuis de la debut de la recherche et des 
estimations de la duree totale et de la vitesse de recherche. Elle permet egalement 
30 d'abandonner la recherche si il s'avere que sa duree est jugee trop longue. La recherche 
s'interrompt des qu'un extrait commun a ete trouve. La taille de l'extrait trouve et sa position 
dans chaque fichier sont alors affiches. Le programme effectue T analyse des fichiers en 
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suivant un ordre predefini. Le principe est de tester chaque couple de positions de debut 
pouvant etre pris par un extrait commun dans les fichiers. 

Sa mise en oeuvre est decrite dans les presentations ci-apres des algorithmes de recherche. On 
indique que la recherche peut etre reprise pour trouver d'autres extraits communs aux fichiers. 

5 Dans ce cas, la recherche est reprise a partir du couple de positions de debut du dernier extrait 
commun trouve et en suivant l'ordre predefini d'analyse des fichiers. La recherche s'arrete 
quand les fichiers ont ete entierement analyses. Les conditions de l 5 arret sont alors affichees 
pour indiquer selon le cas qu'il n'y a pas d'extrait commun aux fichiers ou qu'il n'y a pas 
d' autre extrait commun aux fichiers. 

10 Le programme propose d'utiliser au choix deux algorithmes pour effectuer des recherches : un 
algorithme de recherche classique et un algorithme au sens de 1' invention. 
Le programme permet ainsi de comparer sur un meme micro-ordinateur les performances des 
deux algorithmes, et ce, pour une configuration de recherche quelconque, en termes de taille 
minimale des extraits communs a rechercher, de taille des fichiers, de nature des fichiers, ou 

15 autres. 

Le critere devaluation des performances est la rapidite d'execution des algorithmes. Les 
fenetres de suivi d'execution permettent de recuperer les estimations telles que la duree 
d'execution pour accomplir la recherche, la vitesse de recherche, et autres. 
II est apparu avec l'algorithme classique que la vitesse de recherche est pratiquement constante 
20 et ne depend pas de la taille minimale des extraits communs a trouver. Elle s'exprime en 
nombre d'operations de comparaison de donnees binaires (octets) par seconde qui sont 
effectuees par l'ordinateur. Sa valeur est toujours inferieure a la frequence d'horloge du 
microprocesseur. 

En revanche, avec l'algorithme au sens de 1' invention, la vitesse de recherche varie en fonction 
25 de la taille minimale des extraits communs a trouver. Elle s'exprime par une estimation du 
nombre d'operations de comparaison de donnees binaires (octets) par seconde qui seraient 
effectuees par l'ordinateur si l'algorithme classique etait utilise. Ainsi, plus la taille minimale 
des extraits communs a trouver augmente, plus la vitesse augmente. Sa valeur peut depasser 
celle de la frequence d'horloge du microprocesseur. 

30 

On a represents sur la figure 19A une copie d'ecran d'une boite de dialogue dans le cadre 
d'une interface homme machine d'un programme informatique au sens de 1'invention, pour 
une recherche, a l'identique, d'extraits communs entre deux fichiers textes. La figure 19B 
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represente une copie d'ecran indiquant devolution de la recherche definie sur la page d'ecran 
de la figure 19 A. On constatera que le temps pris par cette recherche est de deux secondes, 
alors que les tailles des fichiers etaient respectivement de 85390 octets et 213275 octets (figure 
19A). 

5 

On a represente sur la figure 19C une copie d'ecran pour une recherche d'extraits communs 
entre deux fichiers audio, au format .WAV. Comme indique ci-avant, il s'agit 
preferentiellement d'une recherche qui n'est pas a l'identique, mais dont les parametres 
(desquels decoule en particulier l'indice de confiance decrit ci-avant) sont determines dans 
10 cette boite de dialogue (partie superieure de la figure 19C). Ici, on dispose d'un enregistrement 
d'une heure de radio (103,9 MHz en FM a Paris), d'une part, et une base de 244 
enregistrements sonores (musique, spots publicitaires, etc), d' autre part. La recherche a detecte 
83 extraits communs de la base dans 1' enregistrement radio. 

La figure 19D represente enfin une copie d'ecran pour la creation de fichier de signature 
15 numerique elabore a partir d'un traitement en temps reel de signaux audio, correspondant a un 
enregistrement radio (105,5 MHz a Paris) de deux heures de duree, a une frequence 
d'echantillonnage de 22,050 kHz. On indique que la precision de la signature (ici choisie a 
5Hz, parmi un choix de 2, 5 ou 25Hz) correspond au nombre de donnees dans la signature 
numerique, par seconde de morceau de musique. Ce parametre permet notamment d'affmer la 
20 precision de 1' instant de debut de detection d'extraits communs. 

On a represente sur la figure 18 le contexte d'une autre application de la presente invention, en 
particulier a la mise a jour a distance de l'un des premier et second fichiers par rapport a l'autre 
des premier et second fichiers. On prevoit a cet effet une installation informatique, 

25 comportant : 

- une premiere entire informatique PCI propre a stocker le premier fichier, 

- une seconde entit6 informatique PC2 propre a stocker le second fichier, et 

- des moyens de communications COM entre les premiere PCI et seconde PC2 unites 
informatiques. 

30 L'une des entires au moins (PCI et/ou PC2) comporte une memoire (respectivement MEM1 
et/ou MEM2) propre a stocker le produit programme d'ordinateur tel que decrit ci-avant, pour 
la recherche d'extrait commun entre les premier et second fichiers. 
A ce titre, la presente invention vise aussi une telle installation. 
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Ici, l'entite stockant ce produit programme d'ordinateur est alors capable d'effectuer une mise a 
jour a distance de l'un des premier et second fichiers par rapport a l'autre des premier et second 
fichiers, en comparant deja les premier et second fichiers. Ainsi, l'une des entit6s peut avoir 
fait evoluer un fichier informatique par des nouvelles saisies de donnees ou autres 
modifications dans une certaine periode (une semaine, un mois, ou autre). L'autre entite 
informatique, qui dans cette application, doit assurer le stockage et la mise a jour reguliere des 
fichiers issus de la premiere entite, recoit ces fichiers. 

Plutot que de transferer completement les fichiers a mettre a jour de la premiere entite vers la 
deuxieme entite, la premiere entite repere par le precede au sens de l'invention les extraits de 
donnees qui sont communs entre deux versions d'un meme fichier, la nouvelle version qui a ete 
modifiee par ajout ou par suppression de donnees, et l'ancienne version qui a ete prealablement 
transmise a l'autre entite et dont la premiere entite a conserve localement une sauvegarde. Cette 
comparaison au sens de l'invention permet de creer un fichier de differences entre la nouvelle 
version et l'ancienne version du fichier qui comporte des informations de position et de taille 
des extraits communs de donnees qui peuvent etre utilises pour reconstruire partiellement la 
nouvelle version du fichier a partir des donnees de l'ancienne version du fichier, et qui 
comporte les complements de donnees qui doivent etre utilises pour achever la reconstruction 
de la nouvelle version de fichier. La mise a jour du fichier s'effectue ensuite en procedant par 
une transmission du fichier de differences vers la deuxieme entite, puis en appliquant ensuite 
un traitement local a la deuxieme entite de reconstruction de la nouvelle version du fichier par 
combinaison de l'ancienne version du fichier et dudit fichier de differences. 

L'application du precede au sens de l'invention permet de reduire considerablement les temps 
de traitement necessaires a la generation dudit fichier de differences et permet de reduire le 
volume des donnees a transferer (et done les cout et temps de transfert) pour effectuer la mise a 
jour a distance de fichiers informatiques volumineux n'ayant subi que peu de modifications, 
notamment lorsque de tels fichiers comportent des donnees comptables, bancaires ou autres. 

Les entites informatiques peuvent se presenter sous la forme de tout dispositif informatique 
(ordinateur, serveur, ou autre) comportant une memoire pour stacker (au moins 
momentanement) les premier et second fichiers, pour la recherche d'au moins un extrait 
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eommim entre le premier fichier et le second fichier. lis sont alors equipes d'une memoire 
stockant aussi les instructions d'un produit programme d f ordinateur du type decrit ci-avant. 
A ce titre, la presente invention vise aussi un tel dispositif informatique. 

Elle vise aussi un produit programme d'ordinateur, destine a etre stocke dans une memoire 
d f une unite centrale d f un ordinateur tel que le dispositif informatique precite ou sur un support 
amovible destine a cooperer avec un lecteur de cette unite centrale. Ce produit programme 
comporte des instructions pour derouler tout ou partie des etapes du traitement au sens de 
1' invention decrit ci avant. 

La presente invention vise aussi une structure de donnees destinees a etre utilisees pour une 
recherche d'au moins un extrait commun entre un premier et un second fichier, la structure de 
donnees etant representative du. premier fichier, des lors que cette structure de donnees est 
obtenue par l'application du traitement au sens de Finvention pour former une signature 
numerique. En particulier, cette structure de donnees est obtenue par la mise en ceuvre des 
etapes a) et b) du procede enonce ci-avant et comporte une succession d ! adresses identifiant 
des adresses du premier fichier et a chacune desquelles est affecte un etat en logique floue 
parmi les etats : "vrai" (1), "faux" (0) et "indetermine" ( ?). 
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Revendications 

1. Procede de recherche de contenu, dans lequel on recherche au moins un extrait commun 
entre un premier fichier et un second fichier, sous forme de donnees binaires, caracterise en ce 
qu'il comporte une preparation prealable du premier fichier au moins, comprenant les etapes 
suivantes : 

a) segmenter le premier fichier en une succession de paquets de donnees, de taille choisie, et 
identifier des adresses de paquets dans ledit fichier, 

b) associer a l'adresse de chaque paquet une signature numerique definissant un etat en 
logique floue parmi au moins trois etats : "vrai", "faux" et "indetermine", ladite signature 
resultant d'un calcul combinatoire sur des donnees issues dudit fichier, 

et en ce que le procede se poursuit par une recherche d ! extrait commun, proprement dite, 
comprenant les etapes suivantes : 

c) comparer les etats de logique floue associes a chaque adresse de paquet du premier fichier, 
avec des etats de logique floue determines a partir de donnees issues du second fichier, 

d) eliminer de ladite recherche d'extrait commun des couples d f adresses respectives des 
premier et second fichiers dont les etats logiques respectifs sont "vrai" et "faux" ou "faux" 
et "vrai", et conserver les autres couples d'adresses identifiant des paquets de donnees 
susceptibles de comporter ledit extrait commun. 

2. Procede selon la revendication 1, caracterise en ce que, a l'etape b), on affecte a un paquet 
de donnees Tetat : 

"vrai" si toutes les donnees du paquet verifient une premiere condition, 
_ "faux" si tcmtes les donnees du paquet verifient une seconde condition, contraire a la 
premiere condition, 

_ et "indetenmne" si certaines donnees du paquet verifient la premiere condition, tandis que 
d'autres donnees du paquet verifient la seconde condition. 

3. Procede selon Tune des revendications 1 et 2, caracterise en ce que Ton applique aux 
donnees d'un fichier un traitement prealable a l'etape b) et comportant les etapes suivantes : 
al) on considere les donnees du fichier en tant que suite d'echantillons obtenus a une 

frequence d'echantillonnage predeterminee (Fe), et de valeurs codees selon un code de 
representation binaire, et 



WO 2005/101292 PCT/FR2005/000673 



60 

a2) on applique un filtre numerique sur lesdits echantillons (f n ), adapte pour minimiser une 
probability d'obtention de l'etat "indetermine" pour les signatures numeriques associees 
aux paquets d'echantillons. 

5 4. Procede selon la revendication 3, caracterise en ce que l'application dudit filtre numerique 
revient a : 

appliquer une transformee spectrale aux donnees echantillonnees, 
appliquer un filtre passe-bas a ladite transformee spectrale, 

- et appliquer une transformee spectrale inverse apres ledit filtre passe-bas. 

10 

5. Procede selon la revendication 4, caracterise en ce que le filtre passe-bas opere sur une 
bande de frequences comprenant sensiblement Tintervalle : 

[-Fe/2(k-l), +Fe/2(k-l)], 
ou Fe est ladite frequence d'echantillonnage, 
15 et k est le nombre d'echantillons que comporte un paquet. 

6. Procede selon Tune des revendications 4 et 5, caracterise en ce que ledit filtre numerique 
comporte un nombre predetermine de coefficients de raeme valeur, 

et en ce que la reponse frequentielle du filtre passe-bas associe s'exprime, en fonction de la 
frequence f, par une expression du type : 

sin(PI.f.T)/(PI.f.T), 
ou sin() est la fonction sinus, et avec : 

- PI = 3,1416, et 

- T=(K-1)/Fe ou K est ledit nombre predetermine de coefficients et Fe ladite frequence 
d'echantillonnage. 

7. Procede selon Tune des revendications 3 a 6, caracterise en ce que ledit filtre numerique est 
un filtre a valeur moyenne d f un nombre predetermine (2K+1) de coefficients, et en ce que la 
difference entre deux echantillons filtres successifs (r n 4-i-r n ) est proportionnelle a la difference 
entre deux echantillons non filtres ( WrW. respectivement d ! un premier rang et d'un second 
rang, espaces dudit nombre predetermine de coefficients, et en ce que le calcul desdits 
echantillons filtres est effectue en exploitant cette relation pour reduire le nombre d'operations 
de calcul a effectuer. 



20 



25 
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8. Precede selon Tune des revendications 6 et 7, caracterise en ce que ledit nombre 
predetermine de coefficients du filtre (2K+1) est superieur ou egal a 2k- 1, ou k est le nombre 
d'echantillons que comporte un paquet. 

9. Procede selon l'une des revendications 3 a 8, prises en combinaison avec la revendication 2, 
caracterise en ce que : 

- Tetat "vrai" est affecte a l'adresse d ! un paquet si, pour ce paquet, tous les echantillons 
filtres ont une valeur superieure a une valeur de reference choisie (Vref), 

- Tetat "faux" est affecte a l'adresse d'un paquet si, pour ce paquet, tous les echantillons 
filtres ont une valeur inferieure a une valeur de reference choisie (Vref), et 

_ r&at "indetermine" est affecte a l'adresse d'un paquet si, pour ce paquet, les echantillons 
filtres ont, pour certains, une valeur inferieure a ladite valeur de reference (Vref), et, pour 
d'autres echantillons filtres, une valeur superieure a ladite valeur de reference (Vref). 

10. Procede selon la revendication 9, caracterise en ce que, pour tout echantillon filtre r n , 
d'ordre donne n, ladite valeur de reference (Vref) est calculee en moyennant les valeurs des 
echantillons non filtres f k , sur un nombre choisi d'echantillons consecutifs non filtres (Kref) 
autour d'un echantillon non filtre f n , du meme ordre donne n. 



11. Procede selon la revendication 10, caracterise en ce que les valeurs des echantillons filtres 

sont ramenees, pour comparaison, a une valeur seuil nulle, 

et en ce que lesdits echantillons filtres r' n s'expriment par une somme du type : 

(JC/2)-l (K nf /2)-l 

25 - fn+k sont des echantillons non filtres obtenus a Tetape al), 

- K est le nombre de coefficients du filtre numerique, preferentiellement choisi pair, et 
_ K rc f est ledit nombre d'echantillons non filtres autour d'un echantillon non filtre f H , 
preferentiellement choisi pair et superieur audit nombre de coefficients K. 

30 12. Procede selon la revendication 11, caracterise en ce que Ton applique ladite somme aux 
echantillons non filtres f„ une pluralite de fois, selon un traitement effectue en parallele, en 
faisant varier respectivement le nombre de coefficients K. 
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13. Procede selon Tune des revendications precedentes, caracterise en ce que les etats flous 
associes au premier fichier au moins sont codes chacun sur au moins deux bits. 

14. Procede selon la revendication 13, prise en combinaison avec la revendication 12, 
caracterise en ce que les etats flous determines pour un nombre de coefficients K le plus faible 
sont codes sur des bits de poids le plus faible et les etats flous determines pour un nombre de 
coefficients K plus grand sont codes sur des bits suivants, jusqu'a un nombre total choisi de 
bits. 

15. Procede selon Tune des revendications 3 et 10, caracterise en ce que chaque echantillon 
filtre r n s'exprime comme une somme du type : 

h 

r n = X fi ltre i x An+t)> °* : 

- f (n +i) sont des echantillons non filtres, 

- filtrei sont des coefficients d'un filtre numerique, integrant, le cas echeant, une valeur seuil 
ramenee a zero, 

et en ce que Ton choisit un nombre k d'echantillons non filtres que comporte un paquet, au 
minimum egal a 2 et inferieur ou egal a une expression du type : 

(TEF-IrI 2 +l)/2, ou TEF est une taille minimale souhaitee des extraits communs recherches. 

16. Procede selon la revendication 15, caracterise en ce que : 

_ pour une valeur donnee TEF de la taille minimale souhaitee d ! extraits communs 
recherches, on determine une plage de valeurs utilisables pour ledit nombre k 
d'echantillons non filtres que comporte un paquet, 

- et, pour chaque valeur utilisable du nombre k, on determine une taille optimale TES d'une 
succession de donnees de signatures numeriques pour laquelle la detection d'un extrait 
commun de taille TEF est garantie, 

et en ce que ladite taille optimale TES est inferieure ou egale a une expression du type : 
E[(TEF-I r I 2 +l)/kH, ou E(X) designe lapartie entiere de X. 
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17. Procede selon Tune des revendications precedentes, dans lequel les deux fichiers a 
comparer comportent des donnees representatives de caracteres alphanumeriques, notamment 
du texte et/ou un code informatique ou genetique, 

caracterise en ce que le procede comporte : 
5 - un premier groupe d'etapes comportant la formation des signatures numeriques et leur 
comparaison, pour une recherche grossiere, et 

- un second groupe d'etapes comportant une comparaison a l'identique dans les plages 
d'adresses verifiant la comparaison grossiere, 

en ce que Ton considere les donnees d ? un fichier en tant que suite d'echantillons, avec un 
10 nombre choisi k d'echantillons par paquet, 

et en ce que la valeur de ce nombre choisi k est optimisee initialement en recherchant un 
minimum d'operations de comparaison a effectuer. 

18. Procede selon la revendication 17, caracterise en ce que, pour l'optimisation du nombre 
15 choisi k d'echantillons par paquet, on tient compte d'un nombre total : 

- d'operations de comparaison de signatures numeriques a effectuer, et 

- d'operations de comparaison de donnees a l'identique a effectuer ensuite, 

et en ce que ledit nombre total d'operations est minimum pour un ensemble fini de nombres k. 

20 19. Procede selon Tune des revendications 17 et 18, caracterise en ce que Ton obtient une 
information relative a une taille minimale souhaitee d'extraits communs recherches (TEF), 
utilisee pour optimiser ledit nombre choisi k d'echantillons par paquet, 

et en ce que le nombre optimal k d'echantillons par paquet varie sensiblement comme ladite 
taille minimale (TEF), de sorte que plus taijle minimale souhaitee d'extraits communs 
25 recherches est grande et plus la duree de la recherche d'extrait commun est courte. 

20. Procede selon Tune des revendications 1 a 16, caracterise en ce que la recherche d'extraits 
communs consiste en un unique groupe d'etapes comportant la formation des signatures 
numeriques et leur comparaison, et en ce que le nombre de donnees par paquet est optimise en 
30 se fixant initialement un indice de confiance caracterisant un seuil acceptable de probability de 
fausse detection d'extraits communs. 
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21. Precede selon Tune des revendications 3 a 20, caracterise en ce que, pour le premier 
fichier : 

- on applique l'echantillonnage a une frequence d'echantillonnage choisie, 

- le filtrage numerique correspondant a un filtrage passe-bas dans l'espace des frequences, et 
5 - la combinaison des echantillons filtres pour obtenir des signatures numeriques a l'etat 

"vrai", "faux" ou "indetermine", associees aux adresses respectives du premier fichier, 
tandis que, pour le second fichier : 

- on applique l'echantillonnage a une frequence d'echantillonnage choisie, 

- le filtrage numerique correspondant a un filtrage passe-bas dans l'espace des frequences, et 
10 - on determine l'etat logique associe a chaque paquet d' echantillons filtres a partir de l'etat 

logique associe a un seul echantillon filtre choisi dans chaque paquet, 
de maniere a obtenir des signatures numeriques ne comportant que des etat logiques "vrai" ou 
"faux" et ainsi a ameliorer la selectivity de la comparaison des signatures numeriques. 

15 22. Procede selon la revendication 21, caracterise en ce que : 

- si l'etat logique associe a une adresse du premier fichier est "vrai" ou "indetermine", tandis 
que l'etat logique associe a une adresse du second fichier est "vrai", le couple desdites 
adresses est retenu pour la recherche d'extrait commun, 

- si l'etat logique associe a une adresse du premier fichier est "faux" ou "indetermine", tandis 
20 que l'etat logique associe a une adresse du second fichier est "faux", le couple desdites 

adresses est retenu pour la recherche d'extrait commun, 
tandis que les autres couples d'adresses sont exclus de la recherche. 

23. Procede selon la revendication 20, dans lequel les premier et second fichiers sont des 
25 fichiers d 5 echantillons de signaux numerises, caracterise en ce que le procede comporte une 

etape de pre-traitement des donnees et une prise en compte des donnees associees a des 
portions de signal de niveau superieur a une reference de bruit. 

24. Procede selon Tune des revendications 20 et 23, dans lequel les premier et second fichiers 
30 sont des fichiers d' echantillons de signaux numerises, caracterise en ce que le procede prevoit 

une etape de consolidation des resultats de recherche, preferentiellement par ajustement de 
tailles relatives des paquets des premier et second fichiers, de maniere a tolerer un ecart en 
vitesses de restitution respectives des premier et second fichiers. 
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25. Procede selon Tune des revendications precedentes, caracterise en ce que Tun au moins des 
premier et second fichiers est un flux de donnees, 

et en ce que le procede de recherche d f extraits communs est execute en temps reel. 

5 

26. Produit programme d'ordinateur, destine a etre stocke dans une memoire d ! une unite 
centrale d'un ordinateur ou sur un support amovible destine a cooperer avec un lecteur de ladite 
unite centrale, caracterise en ce qu ! il comporte des instructions pour derouler tout ou partie des 
etapes du procede selon Tune des revendications precedentes. 

10 

27. Structure de donnees destinees a etre utilisees pour une recherche d'au moins un extrait 
commun entre un premier et un second fichier, la structure de donnees etant representative du 
premier fichier, 

caracterisee en ce qu'elle est obtenue par la mise en ceuvre des etapes a) et b) du procede selon 
15 Tune des revendications 1 a 25, 

et en ce qu ! elle comporte une succession d'adresses identifiant des adresses du premier fichier 
et a chacune desquelles est affecte un etat en logique floue parmi les etats : "vrai", "faux" et 
"indetermine". 

20 28. Dispositif informatique, comportant une memoire pour stocker au moins des premier et 
second fichiers, pour la recherche d f au moins un extrait commun entre le premier fichier et le 
second fichier, caracterise en ce qu'il comporte une memoire propre a stocker les instructions 
d'un produit programme d'ordinateur selon la revendication 26. 

25 29. Installation informatique, comportant : 

- une premiere entite informatique propre a stocker un premier fichier, 

- une seconde entite informatique propre a stocker un second fichier, et 

- des moyens de communications entre les premiere et seconde unites informatiques, 
caracterisee en ce que Tune des entites au moins comporte une memoire propre a stocker le 

30 produit programme d'ordinateur selon la revendication 26, pour la recherche d'extrait commun 
entre les premier et second fichiers. 
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30. Installation selon la revendication 29, caracterise en ce que Tentite stockant le produit 
programme d ! ordinateur est agencee pour effectuer une mise a jour a distance de Tun. des 
premier et second fichiers par rapport a Tautre des premier et second fichiers. 
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FIG. 19A 



Recherche des extraits communs a deux fichiers 



- Parametres de recherche - 



Taille minimale des extraits cornmuns de donnees a trouven 



150 



Debut de recherche 



N ombre d'extraits trouves ]3 
Numero d'extrait trouve M 



- Consultation des extras cornmuns trouves - 
Premier | fV7ec6feni'i 



Suivant 



Dernier 



Allera 



Taille de 1'extrait commun 



[HST 



Taille cumulee des extraits utilisabtes pour regenerer le fichier 1 a partir du fichier 2 (octets] |0 
Tri par ordre croissant de debut d'extrait sur le fichier 1 Tri par ordre croissant de debut d'extrait sur le fichier 2 



- Parametres du ler fichier - 



Norn :p CONSTITUTION DE Repertoire: (D:\DocHTMLS 



Taille (octets) : |S5390 " 



Position de la Tere donnee affichee dans la fenetre : 219 



Fenetre d'affichage du 1 er fichier : 
W Modetexte 

V Mode hexadecimal 

V Mode unsigned char 
F* Mode signed char 



E</TITLE> 

<META content="text/html; CHARSET^iso-8859-1" http-equiv=Content-Type> 
<META content="MSHTML 5.00.261 4.3500 u name=GENERATOR> 
<META 

content«"AssembIee nationale : constitution, procedure parlementaire, processus lec 
name=description> 

.^J ...v- '^k.:... ;.„»,..;.„„„.'. J 



L yj| 



Parametres du 2nd fichier 


Norn :|R£GLEMENT DE L'ASS Repertoire :jD:\DocHTMlA Taille (octets] : J213275 
Position de la tere donnee affichee dans la fenetre : |208 


Fenetre d'affichage du 2nd fichier % 
W Modetexte 
V Mode hexadecimal 
f - * Mode unsigned char 
r* Mode signed char 


E</TITLE> ^| 
<META content^'textAitml; CHARSET*=iso-8859«1 " http-equiv=Content-Type> q% 
<META content= u MSHTML 5.00.261 4.3500" name«GENERATOR> 
<META 

content="Assemb!ee nationale : constitution, procedure parlementaire, processus lec 
name=description> " ^| 
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Cancel 
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Identification ^ 



- Parametres de recherche - 



Precision de la recherche (Hz): 
Bruit (en X du niveau maxi) : 



Duree minimale d'extrait (sec.}: pIT 



Debut de recherche 



OK 



Cancel 



-Consultation des extraits communs trouves- 



Nombred'extraits trouves 83 



N umero d'extrait trouve 1 1 
Sauvegarde de signature d'extrait j 



Altera 



Premier | Precedent | Suivant [ Dernier 

Duree de I'extrait courant : jOhOOmOOstiO 
Duree cumulee des extraits trouves : jo h 37 m 15 s 60 



Creation de fichier 
archive de resultats de 
recherche 



Selection de fichier 
. archive de resultats de 
recherche 



- Parametres de I'enregistrement a ana(yser~ 



Nom:j FM 2Q0403Q3_09350QF Repertoire: jD:SAudioRadioVFMV 



Duree: |l hOOmOOstJO? 



References: 



Source audio; 
FM 

Reception Park 103,9 MHz 
Format de numeration audio: 



S election de fichier wave 



Creation de signature 



Selection de signature j 



Duree de I'extrait trouve : 



De: 



- Parametres de Ja base d'enregistrements de reference - 



N ombre d'enregistrements :|244 



•[^PremTer^ Precedent [ Suivant j Dernier ] 



Numero d'enregistrement : j1 
Mom : |01 Jazz^wav 
References 



Aller 



3f j| | 'Fermer | Variables j Duree cumulee de la base :|41 h 31 m ^ 14 s 20 



Repertoire: j D:\AudioWave\Claude\ ' " Duree : joh02m26s 



40 



Format de nurnerisation audio: 

PCM 44,100 kHz; 16 bits; Stereo 

Plage horaire de la signature numerique: 
Debut: QhOQrnOO.sOQ 



i^fel Selection de fichiers wave | 



Creation de signa ture j 
Selection de signature I 



Duree de I'extrait trouve : 



De: 



Selection de librairie de 
signatures 
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